ComeçarComece de graça

Praticando cache: o SQL

Anteriormente, examinamos dois DataFrames: df1 e df2 (que é criado a partir de df1). Tentamos fazer cache de df1, mas não de df2. Neste exercício, vamos analisar os efeitos de fazer cache de df2, mas não de df1.

Mais uma vez, observe quanto tempo cada ação leva. Vamos comparar esses tempos no próximo exercício. Quais tarefas ficam mais rápidas? Quais ficam mais lentas?

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Faça cache de df2, mas não de df1.
  • Execute uma primeira ação em df1 e repita, depois execute uma ação em df2 e repita. Isso já foi feito para você.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)
Editar e executar o código