ComeçarComece de graça

Armazenamento em cache de um DataFrame

Você recebeu uma tarefa que requer a execução de várias operações de análise em um DataFrame. Você aprendeu que o armazenamento em cache pode melhorar o desempenho ao reutilizar DataFrames e gostaria de implementá-lo.

Você trabalhará com um novo conjunto de dados que consiste em informações de partidas de companhias aéreas. Ele pode ter dados repetitivos e precisará ser desduplicado.

O DataFrame departures_df está definido, mas nenhuma ação foi executada.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

  • Armazene em cache as linhas exclusivas no DataFrame departures_df.
  • Faça uma consulta de contagem em departures_df, observando o tempo que a operação leva.
  • Conte as linhas novamente, observando a variação no tempo de um DataFrame em cache.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

start_time = time.time()

# Add caching to the unique rows in departures_df
departures_df = departures_df.____.____

# Count the unique rows in departures_df, noting how long the operation takes
print("Counting %d rows took %f seconds" % (departures_df.____, time.time() - start_time))

# Count the rows again, noting the variance in time of a cached DataFrame
start_time = time.time()
print("Counting %d rows again took %f seconds" % (____, time.time() - start_time))
Editar e executar o código