LoslegenKostenlos loslegen

Vergleich zwischen Broadcast und normalen Joins

Du hast zwei Arten von Joins erstellt: normale und Broadcasted Joins. Jetzt möchte dein Manager wissen, wie hoch die Leistungsverbesserung durch den Einsatz von Spark-Optimierungen ist. Wenn die Ergebnisse vielversprechend sind, bekommst du mehr Gelegenheit, die Spark-Einstellungen nach Bedarf zu optimieren.

Deine DataFrames normal_df und broadcast_df stehen dir zur Verfügung.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Führe .count() für den normalen DataFrame aus.
  • Führe .count() für den übertragenen DataFrame aus.
  • Druckt die Anzahl und Dauer der DataFrames aus, die sich unterscheiden.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time

start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time

# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))
Code bearbeiten und ausführen