Comparer les jointures broadcast et classiques
Vous avez créé deux types de jointures : classique et broadcast. Votre responsable souhaite maintenant connaître le gain de performance obtenu grâce aux optimisations de Spark. Si les résultats sont prometteurs, vous aurez l’occasion d’ajuster davantage la configuration Spark selon les besoins.
Vos DataFrames normal_df et broadcast_df sont à votre disposition.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Exécutez
.count()sur le DataFrame classique. - Exécutez
.count()sur le DataFrame en broadcast. - Affichez le nombre de lignes et la durée pour chaque DataFrame en notant les différences.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))