Practicar el cacheo: el SQL
Antes analizamos dos DataFrames: df1 y df2 (que se crea a partir de df1). Intentamos hacer cache de df1, pero no de df2. En este ejercicio, veremos los efectos de cachear df2, pero no df1.
Una vez más, fíjate en el tiempo que tarda cada acción. Los compararemos en el siguiente ejercicio. ¿Qué tareas se aceleran? ¿Cuáles se ralentizan?
Este ejercicio forma parte del curso
Introducción a Spark SQL en Python
Instrucciones del ejercicio
- Cachea
df2, pero nodf1. - Ejecuta una primera acción sobre
df1y repítela; luego ejecuta una acción sobredf2y repítela. Esto ya está hecho por ti.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)