Utilizar el procesamiento perezoso

Las operaciones de procesamiento perezoso suelen volver en aproximadamente el mismo tiempo, independientemente de la cantidad real de datos. Recuerda que esto se debe a que Spark no realiza ninguna transformación hasta que se solicita una acción.

Para este ejercicio, definiremos un Marco de Datos (aa_dfw_df) y añadiremos un par de transformaciones. Fíjate en el tiempo que tardan en completarse las transformaciones cuando se definen y cuando se consultan realmente los datos. Estas diferencias pueden ser cortas, pero se notarán. Cuando trabajes con un clúster Spark completo con mayores cantidades de datos, la diferencia será más evidente.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Carga el Marco de Datos.
Añade la transformación para F.lower() a la columna Destination Airport.
Muestra el Marco de Datos, anotando la diferencia de tiempo para que se complete esta acción.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')

# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))

# Show the DataFrame
____

Editar y ejecutar código