Broadcast-joins versus normale joins vergelijken
Je hebt twee soorten joins gemaakt: normaal en met broadcast. Nu wil je manager weten wat de prestatieverbetering is door Spark-optimalisaties te gebruiken. Als de resultaten veelbelovend zijn, krijg je meer ruimte om de Spark-setup waar nodig te finetunen.
Je DataFrames normal_df en broadcast_df zijn beschikbaar om te gebruiken.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Voer
.count()uit op de normale DataFrame. - Voer
.count()uit op de broadcast-DataFrame. - Print het aantal en de duur van de DataFrames en let op eventuele verschillen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))