Aan de slagGa gratis aan de slag

Broadcast-joins versus normale joins vergelijken

Je hebt twee soorten joins gemaakt: normaal en met broadcast. Nu wil je manager weten wat de prestatieverbetering is door Spark-optimalisaties te gebruiken. Als de resultaten veelbelovend zijn, krijg je meer ruimte om de Spark-setup waar nodig te finetunen.

Je DataFrames normal_df en broadcast_df zijn beschikbaar om te gebruiken.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Cursus bekijken

Oefeninstructies

  • Voer .count() uit op de normale DataFrame.
  • Voer .count() uit op de broadcast-DataFrame.
  • Print het aantal en de duur van de DataFrames en let op eventuele verschillen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time

start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time

# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))
Code bewerken en uitvoeren