LoslegenKostenlos starten

Caching üben: die SQL

Zuvor haben wir zwei DataFrames betrachtet: df1 und df2 (wobei df2 aus df1 erstellt wird). Wir haben versucht, df1 zu cachen, aber nicht df2. In dieser Übung schauen wir uns die Auswirkungen an, wenn df2 gecacht wird, df1 jedoch nicht.

Achte erneut darauf, wie viel Zeit jede Aktion benötigt. Wir werden diese Zeiten in der nächsten Übung vergleichen. Welche Aufgaben werden schneller? Welche werden langsamer?

Diese Übung ist Teil des Kurses

<Kurs>Einführung in Spark SQL mit Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Cache df2, aber nicht df1.
  • Führe eine erste Aktion auf df1 aus und wiederhole sie, führe dann eine Aktion auf df2 aus und wiederhole sie. Das wurde bereits für dich vorbereitet.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)
Code bearbeiten und ausführen