Practicando el uso de la caché: parte 1
En los próximos ejercicios, vas a probar distintas formas de cachear dos DataFrames.
Un dataframe df1 se carga desde un archivo csv. Se le aplican varios pasos de procesamiento. Como vas a usar df1 más de una vez, es un buen candidato para la caché.
Se crea un segundo dataframe df2 realizando pasos adicionales de alto coste computacional sobre df1. También es candidato para la caché.
Como df2 depende de df1, surge la pregunta: ¿es mejor cachear df1 o cachear df2?
En este ejercicio, probaremos a cachear df1. Fíjate en el tiempo que tarda cada acción. Los compararemos en el siguiente ejercicio.
Este ejercicio forma parte del curso
Introducción a Spark SQL en Python
Instrucciones del ejercicio
- Cachea solo
df1. - Ejecuta una primera acción sobre
df1y repítela; luego ejecuta una acción sobredf2y repítela. Esto ya está hecho por ti. - Confirma si
df1está en caché o no.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Unpersists df1 and df2 and initializes a timer
prep(df1, df2)
# Cache df1
____
# Run actions on both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)
# Prove df1 is cached
print(____)