Tubería rápida

Antes de analizar datos más complejos, a tu jefe le gustaría ver un ejemplo sencillo de canalización que incluya los pasos básicos. Para este ejemplo, querrás ingerir un archivo de datos, filtrar algunas filas, añadirle una columna ID y, a continuación, escribirlo como datos de JSON.

Se define el contexto spark, junto con la biblioteca pyspark.sql.functions a la que se asigna el alias F, como es habitual.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Importa el archivo 2015-departures.csv.gz a un DataFrame. Ten en cuenta que la cabecera ya está definida.
Filtra el DataFrame para que sólo contenga vuelos con una duración superior a 0 minutos. Utiliza el índice de la columna, no el nombre de la columna (recuerda utilizar .printSchema() para ver los nombres / el orden de las columnas).
Añade una columna ID.
Escribe el archivo como un documento JSON llamado output.json.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')

Editar y ejecutar código