RDD de conjuntos de datos externos

PySpark puede crear fácilmente RDD a partir de archivos almacenados en dispositivos de almacenamiento externos, como HDFS (sistema de archivos distribuidos de Hadoop), buckets de Amazon S3, etc. Sin embargo, el método más habitual para crear RDD es partir de archivos almacenados en tu sistema de archivos local. Este método toma una ruta de archivo y la lee como colección de líneas. En este ejercicio crearás un RDD a partir de la ruta de archivo (file_path) con el nombre de archivo README.md ya disponible en tu espacio de trabajo.

Recuerda que ya tienes sc de SparkContext disponible en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Imprime file_path en el terminal PySpark.
Crea un RDD llamado fileRDD a partir de file_path.
Imprime el tipo de fileRDD creado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))

Editar y ejecutar código