Comparaison entre les jointures de diffusion et les jointures normales
Vous avez créé deux types de jointures, normales et diffusées. Maintenant, votre responsable aimerait savoir quelle est l'amélioration des performances grâce à l'utilisation des optimisations de Spark. Si les résultats sont prometteurs, vous aurez la possibilité de modifier la configuration de Spark si nécessaire.
Vos DataFrame normal_df
et broadcast_df
sont à votre disposition.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Exécutez
.count()
sur le DataFrame normal. - Exécutez
.count()
sur le DataFrame diffusé. - Imprimez le décompte et la durée des DataFrame notant et les différences.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))