Tubería rápida
Antes de analizar datos más complejos, a tu jefe le gustaría ver un ejemplo sencillo de canalización que incluya los pasos básicos. Para este ejemplo, querrás ingerir un archivo de datos, filtrar algunas filas, añadirle una columna ID y, a continuación, escribirlo como datos de JSON.
Se define el contexto spark
, junto con la biblioteca pyspark.sql.functions
a la que se asigna el alias F
, como es habitual.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones de ejercicio
- Importa el archivo
2015-departures.csv.gz
a un DataFrame. Ten en cuenta que la cabecera ya está definida. - Filtra el DataFrame para que sólo contenga vuelos con una duración superior a 0 minutos. Utiliza el índice de la columna, no el nombre de la columna (recuerda utilizar
.printSchema()
para ver los nombres / el orden de las columnas). - Añade una columna ID.
- Escribe el archivo como un documento JSON llamado
output.json
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')