Praticando cache: o SQL
Anteriormente, examinamos dois DataFrames: df1 e df2 (que é criado a partir de df1). Tentamos fazer cache de df1, mas não de df2. Neste exercício, vamos analisar os efeitos de fazer cache de df2, mas não de df1.
Mais uma vez, observe quanto tempo cada ação leva. Vamos comparar esses tempos no próximo exercício. Quais tarefas ficam mais rápidas? Quais ficam mais lentas?
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Faça cache de
df2, mas não dedf1. - Execute uma primeira ação em
df1e repita, depois execute uma ação emdf2e repita. Isso já foi feito para você.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)