ComeçarComece de graça

Praticando cache: parte 1

Nos próximos exercícios, você vai experimentar diferentes maneiras de colocar dois DataFrames em cache.

Um dataframe df1 é carregado de um arquivo CSV. Várias etapas de processamento são executadas nele. Como df1 será usado mais de uma vez, ele é um candidato a entrar em cache.

Um segundo dataframe df2 é criado executando etapas adicionais, intensivas em computação, sobre df1. Ele também é um candidato a entrar em cache.

Como df2 depende de df1, surge a pergunta: é melhor colocar df1 em cache ou colocar df2 em cache?

Neste exercício, vamos tentar colocar df1 em cache. Observe o tempo que cada ação leva. Vamos comparar esses tempos no próximo exercício.

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Coloque apenas df1 em cache.
  • Execute uma primeira ação em df1 e repita-a; depois execute uma ação em df2 e repita-a. Isso já foi feito para você.
  • Confirme se df1 está em cache ou não.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Unpersists df1 and df2 and initializes a timer
prep(df1, df2) 

# Cache df1
____

# Run actions on both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)

# Prove df1 is cached
print(____)
Editar e executar o código