ComenzarEmpieza gratis

Practicar el cacheo: el SQL

Antes analizamos dos DataFrames: df1 y df2 (que se crea a partir de df1). Intentamos hacer cache de df1, pero no de df2. En este ejercicio, veremos los efectos de cachear df2, pero no df1.

Una vez más, fíjate en el tiempo que tarda cada acción. Los compararemos en el siguiente ejercicio. ¿Qué tareas se aceleran? ¿Cuáles se ralentizan?

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Instrucciones del ejercicio

  • Cachea df2, pero no df1.
  • Ejecuta una primera acción sobre df1 y repítela; luego ejecuta una acción sobre df2 y repítela. Esto ya está hecho por ti.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)
Editar y ejecutar código