Praticando cache: parte 1
Nos próximos exercícios, você vai experimentar diferentes maneiras de colocar dois DataFrames em cache.
Um dataframe df1 é carregado de um arquivo CSV. Várias etapas de processamento são executadas nele. Como df1 será usado mais de uma vez, ele é um candidato a entrar em cache.
Um segundo dataframe df2 é criado executando etapas adicionais, intensivas em computação, sobre df1. Ele também é um candidato a entrar em cache.
Como df2 depende de df1, surge a pergunta: é melhor colocar df1 em cache ou colocar df2 em cache?
Neste exercício, vamos tentar colocar df1 em cache. Observe o tempo que cada ação leva. Vamos comparar esses tempos no próximo exercício.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Coloque apenas
df1em cache. - Execute uma primeira ação em
df1e repita-a; depois execute uma ação emdf2e repita-a. Isso já foi feito para você. - Confirme se
df1está em cache ou não.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Unpersists df1 and df2 and initializes a timer
prep(df1, df2)
# Cache df1
____
# Run actions on both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)
# Prove df1 is cached
print(____)