ComenzarEmpieza gratis

Practicando el uso de la caché: parte 1

En los próximos ejercicios, vas a probar distintas formas de cachear dos DataFrames.

Un dataframe df1 se carga desde un archivo csv. Se le aplican varios pasos de procesamiento. Como vas a usar df1 más de una vez, es un buen candidato para la caché.

Se crea un segundo dataframe df2 realizando pasos adicionales de alto coste computacional sobre df1. También es candidato para la caché.

Como df2 depende de df1, surge la pregunta: ¿es mejor cachear df1 o cachear df2?

En este ejercicio, probaremos a cachear df1. Fíjate en el tiempo que tarda cada acción. Los compararemos en el siguiente ejercicio.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Instrucciones del ejercicio

  • Cachea solo df1.
  • Ejecuta una primera acción sobre df1 y repítela; luego ejecuta una acción sobre df2 y repítela. Esto ya está hecho por ti.
  • Confirma si df1 está en caché o no.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Unpersists df1 and df2 and initializes a timer
prep(df1, df2) 

# Cache df1
____

# Run actions on both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)

# Prove df1 is cached
print(____)
Editar y ejecutar código