LoslegenKostenlos loslegen

Alles zusammenführen II

Erstelle ein DataFrame, wende Transformationen an, cache es und prüfe, ob es gecacht ist. Hebe anschließend das Caching auf, um Speicher freizugeben. Für diese Übung wurde eine spark-Session für dich vorbereitet! Schau dir das Ergebnis der Methode .explain() genau an, um zu verstehen, was passiert!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Cache das DataFrame df.
  • Erkläre die Verarbeitung des DataFrames agg_result.
  • Hebe nach der Verarbeitung das Caching des DataFrames df mit unpersist() auf.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Cache the DataFrame
df.____

# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()

# Analyze the execution plan
agg_result.____

# Uncache the DataFrame
df.____
Code bearbeiten und ausführen