Armazenamento em cache de um DataFrame
Você recebeu uma tarefa que requer a execução de várias operações de análise em um DataFrame. Você aprendeu que o armazenamento em cache pode melhorar o desempenho ao reutilizar DataFrames e gostaria de implementá-lo.
Você trabalhará com um novo conjunto de dados que consiste em informações de partidas de companhias aéreas. Ele pode ter dados repetitivos e precisará ser desduplicado.
O DataFrame departures_df
está definido, mas nenhuma ação foi executada.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Armazene em cache as linhas exclusivas no DataFrame
departures_df
. - Faça uma consulta de contagem em
departures_df
, observando o tempo que a operação leva. - Conte as linhas novamente, observando a variação no tempo de um DataFrame em cache.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
start_time = time.time()
# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____
# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))
# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))