Carga de datos en el terminal PySpark
En PySpark, expresamos nuestro cálculo mediante operaciones con colecciones distribuidas que se paralelizan automáticamente en todo el clúster. En el ejercicio anterior has visto un ejemplo de carga de una lista en forma de colecciones paralelizadas, y en este ejercicio cargarás los datos desde un archivo local en el terminal PySpark.
Recuerda que ya tienes las variables sc
y file_path
(que es la ruta del archivo README.md
) de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Carga el archivo de texto local
README.md
en el terminal PySpark.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Load a local file into PySpark shell
lines = sc.____(file_path)