ComenzarEmpieza gratis

Utilizar el procesamiento perezoso

Las operaciones de procesamiento perezoso suelen volver en aproximadamente el mismo tiempo, independientemente de la cantidad real de datos. Recuerda que esto se debe a que Spark no realiza ninguna transformación hasta que se solicita una acción.

Para este ejercicio, definiremos un Marco de Datos (aa_dfw_df) y añadiremos un par de transformaciones. Fíjate en el tiempo que tardan en completarse las transformaciones cuando se definen y cuando se consultan realmente los datos. Estas diferencias pueden ser cortas, pero se notarán. Cuando trabajes con un clúster Spark completo con mayores cantidades de datos, la diferencia será más evidente.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones de ejercicio

  • Carga el Marco de Datos.
  • Añade la transformación para F.lower() a la columna Destination Airport.
  • Muestra el Marco de Datos, anotando la diferencia de tiempo para que se complete esta acción.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')

# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))

# Show the DataFrame
____
Editar y ejecutar código