Vergleich zwischen Broadcast und normalen Joins
Du hast zwei Arten von Joins erstellt: normale und Broadcasted Joins. Jetzt möchte dein Manager wissen, wie hoch die Leistungsverbesserung durch den Einsatz von Spark-Optimierungen ist. Wenn die Ergebnisse vielversprechend sind, bekommst du mehr Gelegenheit, die Spark-Einstellungen nach Bedarf zu optimieren.
Deine DataFrames normal_df
und broadcast_df
stehen dir zur Verfügung.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Führe
.count()
für den normalen DataFrame aus. - Führe
.count()
für den übertragenen DataFrame aus. - Druckt die Anzahl und Dauer der DataFrames aus, die sich unterscheiden.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))