RDD de conjuntos de datos externos
PySpark puede crear fácilmente RDD a partir de archivos almacenados en dispositivos de almacenamiento externos, como HDFS (sistema de archivos distribuidos de Hadoop), buckets de Amazon S3, etc. Sin embargo, el método más habitual para crear RDD es partir de archivos almacenados en tu sistema de archivos local. Este método toma una ruta de archivo y la lee como colección de líneas. En este ejercicio crearás un RDD a partir de la ruta de archivo (file_path
) con el nombre de archivo README.md
ya disponible en tu espacio de trabajo.
Recuerda que ya tienes sc
de SparkContext disponible en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Imprime
file_path
en el terminal PySpark. - Crea un RDD llamado
fileRDD
a partir defile_path
. - Imprime el tipo de
fileRDD
creado.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))