Carga de datos en el terminal PySpark

En PySpark, expresamos nuestro cálculo mediante operaciones con colecciones distribuidas que se paralelizan automáticamente en todo el clúster. En el ejercicio anterior has visto un ejemplo de carga de una lista en forma de colecciones paralelizadas, y en este ejercicio cargarás los datos desde un archivo local en el terminal PySpark.

Recuerda que ya tienes las variables sc y file_path (que es la ruta del archivo README.md) de SparkContext disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Carga el archivo de texto local README.md en el terminal PySpark.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load a local file into PySpark shell
lines = sc.____(file_path)

Editar y ejecutar código