Comparaison entre les jointures de diffusion et les jointures normales

Vous avez créé deux types de jointures, normales et diffusées. Maintenant, votre responsable aimerait savoir quelle est l'amélioration des performances grâce à l'utilisation des optimisations de Spark. Si les résultats sont prometteurs, vous aurez la possibilité de modifier la configuration de Spark si nécessaire.

Vos DataFrame normal_df et broadcast_df sont à votre disposition.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

Exécutez .count() sur le DataFrame normal.
Exécutez .count() sur le DataFrame diffusé.
Imprimez le décompte et la durée des DataFrame notant et les différences.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time

start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time

# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))

Modifier et exécuter le code