ComeçarComece de graça

Comparação de uniões de transmissão com uniões normais

Você criou dois tipos de uniões: normal e transmitida. Agora, seu gerente gostaria de saber qual é a melhoria de desempenho que você obtém usando as otimizações do Spark. Se os resultados forem promissores, você terá mais oportunidades de ajustar a configuração do Spark conforme necessário.

Os DataFrames normal_df e broadcast_df estão disponíveis para você usar.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

  • Execute .count() no DataFrame normal.
  • Execute .count() no DataFrame transmitido.
  • Imprima a contagem e a duração dos DataFrames que você observa e as diferenças.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time

start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time

# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))
Editar e executar o código