Caching üben: Teil 1
In den nächsten Übungen probierst du verschiedene Möglichkeiten aus, zwei DataFrames zu cachen.
Ein DataFrame df1 wird aus einer CSV-Datei geladen. Darauf werden mehrere Verarbeitungsschritte angewendet. Da df1 mehrmals verwendet wird, kommt es als Kandidat fürs Caching infrage.
Ein zweites DataFrame df2 wird erstellt, indem auf df1 zusätzliche, rechenintensive Schritte angewendet werden. Auch df2 ist ein Kandidat fürs Caching.
Da df2 von df1 abhängt, stellt sich die Frage: Ist es besser, df1 zu cachen oder df2?
In dieser Übung versuchen wir, df1 zu cachen. Merke dir, wie viel Zeit jede Aktion benötigt. Diese Zeiten vergleichen wir in der nächsten Übung.
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Anleitung zur Übung
- Cache nur
df1. - Führe eine erste Aktion auf
df1aus und wiederhole sie, führe dann eine Aktion aufdf2aus und wiederhole sie. Das ist bereits für dich vorbereitet. - Bestätige, ob
df1gecacht ist oder nicht.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Unpersists df1 and df2 and initializes a timer
prep(df1, df2)
# Cache df1
____
# Run actions on both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)
# Prove df1 is cached
print(____)