CommencerCommencer gratuitement

Comparer les jointures broadcast et classiques

Vous avez créé deux types de jointures : classique et broadcast. Votre responsable souhaite maintenant connaître le gain de performance obtenu grâce aux optimisations de Spark. Si les résultats sont prometteurs, vous aurez l’occasion d’ajuster davantage la configuration Spark selon les besoins.

Vos DataFrames normal_df et broadcast_df sont à votre disposition.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

  • Exécutez .count() sur le DataFrame classique.
  • Exécutez .count() sur le DataFrame en broadcast.
  • Affichez le nombre de lignes et la durée pour chaque DataFrame en notant les différences.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time

start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time

# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))
Modifier et exécuter le code