LoslegenKostenlos loslegen

Caching üben: Teil 1

In den nächsten Übungen probierst du verschiedene Möglichkeiten aus, zwei DataFrames zu cachen.

Ein DataFrame df1 wird aus einer CSV-Datei geladen. Darauf werden mehrere Verarbeitungsschritte angewendet. Da df1 mehrmals verwendet wird, kommt es als Kandidat fürs Caching infrage.

Ein zweites DataFrame df2 wird erstellt, indem auf df1 zusätzliche, rechenintensive Schritte angewendet werden. Auch df2 ist ein Kandidat fürs Caching.

Da df2 von df1 abhängt, stellt sich die Frage: Ist es besser, df1 zu cachen oder df2?

In dieser Übung versuchen wir, df1 zu cachen. Merke dir, wie viel Zeit jede Aktion benötigt. Diese Zeiten vergleichen wir in der nächsten Übung.

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Kurs anzeigen

Anleitung zur Übung

  • Cache nur df1.
  • Führe eine erste Aktion auf df1 aus und wiederhole sie, führe dann eine Aktion auf df2 aus und wiederhole sie. Das ist bereits für dich vorbereitet.
  • Bestätige, ob df1 gecacht ist oder nicht.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Unpersists df1 and df2 and initializes a timer
prep(df1, df2) 

# Cache df1
____

# Run actions on both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)

# Prove df1 is cached
print(____)
Code bearbeiten und ausführen