RDD de colecciones paralelizadas

El conjunto de datos distribuidos resilientes (RDD) es la abstracción básica en Spark. Es una colección distribuida inmutable de objetos. Como RDD es un tipo de datos fundamental y vertebrador en Spark, es importante que comprendas cómo crearlo. En este ejercicio crearás tu primer RDD en PySpark a partir de una colección de palabras.

Recuerda que ya tienes sc de SparkContext disponible en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Crea un RDD llamado RDD a partir de una lista Python de palabras.
Confirma que el objeto creado sea RDD.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))

Editar y ejecutar código