Caching üben: die SQL
Zuvor haben wir zwei DataFrames betrachtet: df1 und df2 (wobei df2 aus df1 erstellt wird). Wir haben versucht, df1 zu cachen, aber nicht df2. In dieser Übung schauen wir uns die Auswirkungen an, wenn df2 gecacht wird, df1 jedoch nicht.
Achte erneut darauf, wie viel Zeit jede Aktion benötigt. Wir werden diese Zeiten in der nächsten Übung vergleichen. Welche Aufgaben werden schneller? Welche werden langsamer?
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Anleitung zur Übung
- Cache
df2, aber nichtdf1. - Führe eine erste Aktion auf
df1aus und wiederhole sie, führe dann eine Aktion aufdf2aus und wiederhole sie. Das wurde bereits für dich vorbereitet.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)