Armazenamento em cache de um DataFrame

Você recebeu uma tarefa que requer a execução de várias operações de análise em um DataFrame. Você aprendeu que o armazenamento em cache pode melhorar o desempenho ao reutilizar DataFrames e gostaria de implementá-lo.

Você trabalhará com um novo conjunto de dados que consiste em informações de partidas de companhias aéreas. Ele pode ter dados repetitivos e precisará ser desduplicado.

O DataFrame departures_df está definido, mas nenhuma ação foi executada.

Este exercicio faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercicio

Armazene em cache as linhas exclusivas no DataFrame departures_df.
Faça uma consulta de contagem em departures_df, observando o tempo que a operação leva.
Conte as linhas novamente, observando a variação no tempo de um DataFrame em cache.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))

Editar e Executar Código