Comparação de uniões de transmissão com uniões normais
Você criou dois tipos de uniões: normal e transmitida. Agora, seu gerente gostaria de saber qual é a melhoria de desempenho que você obtém usando as otimizações do Spark. Se os resultados forem promissores, você terá mais oportunidades de ajustar a configuração do Spark conforme necessário.
Os DataFrames normal_df
e broadcast_df
estão disponíveis para você usar.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Execute
.count()
no DataFrame normal. - Execute
.count()
no DataFrame transmitido. - Imprima a contagem e a duração dos DataFrames que você observa e as diferenças.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))