RDD de colecciones paralelizadas
El conjunto de datos distribuidos resilientes (RDD) es la abstracción básica en Spark. Es una colección distribuida inmutable de objetos. Como RDD es un tipo de datos fundamental y vertebrador en Spark, es importante que comprendas cómo crearlo. En este ejercicio crearás tu primer RDD en PySpark a partir de una colección de palabras.
Recuerda que ya tienes sc
de SparkContext disponible en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea un RDD llamado
RDD
a partir de una lista Python de palabras. - Confirma que el objeto creado sea RDD.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))