LoslegenKostenlos loslegen

Caching üben: die SQL

Zuvor haben wir zwei DataFrames betrachtet: df1 und df2 (wobei df2 aus df1 erstellt wird). Wir haben versucht, df1 zu cachen, aber nicht df2. In dieser Übung schauen wir uns die Auswirkungen an, wenn df2 gecacht wird, df1 jedoch nicht.

Achte erneut darauf, wie viel Zeit jede Aktion benötigt. Wir werden diese Zeiten in der nächsten Übung vergleichen. Welche Aufgaben werden schneller? Welche werden langsamer?

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Kurs anzeigen

Anleitung zur Übung

  • Cache df2, aber nicht df1.
  • Führe eine erste Aktion auf df1 aus und wiederhole sie, führe dann eine Aktion auf df2 aus und wiederhole sie. Das wurde bereits für dich vorbereitet.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)
Code bearbeiten und ausführen