Guardar en caché un DataFrame

Te han asignado una tarea que requiere ejecutar varias operaciones de análisis en un Marco de Datos. Has aprendido que el almacenamiento en caché puede mejorar el rendimiento al reutilizar DataFrames y te gustaría implementarlo.

Trabajarás con un nuevo conjunto de datos consistente en información sobre salidas de líneas aéreas. Puede tener datos repetitivos y habrá que desduplicarlos.

El DataFrame departures_df está definido, pero no se ha realizado ninguna acción.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Almacena en caché las filas únicas del DataFrame departures_df.
Realiza una consulta de recuento en departures_df, anotando el tiempo que tarda la operación.
Vuelve a contar las filas, observando la variación en el tiempo de un DataFrame almacenado en caché.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))

Editar y ejecutar código