Utilizar el procesamiento perezoso
Las operaciones de procesamiento perezoso suelen volver en aproximadamente el mismo tiempo, independientemente de la cantidad real de datos. Recuerda que esto se debe a que Spark no realiza ninguna transformación hasta que se solicita una acción.
Para este ejercicio, definiremos un Marco de Datos (aa_dfw_df
) y añadiremos un par de transformaciones. Fíjate en el tiempo que tardan en completarse las transformaciones cuando se definen y cuando se consultan realmente los datos. Estas diferencias pueden ser cortas, pero se notarán. Cuando trabajes con un clúster Spark completo con mayores cantidades de datos, la diferencia será más evidente.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones de ejercicio
- Carga el Marco de Datos.
- Añade la transformación para
F.lower()
a la columnaDestination Airport
. - Muestra el Marco de Datos, anotando la diferencia de tiempo para que se complete esta acción.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')
# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))
# Show the DataFrame
____