Alles zusammenführen II
Erstelle ein DataFrame, wende Transformationen an, cache es und prüfe, ob es gecacht ist. Hebe anschließend das Caching auf, um Speicher freizugeben.
Für diese Übung wurde eine spark-Session für dich vorbereitet! Schau dir das Ergebnis der Methode .explain() genau an, um zu verstehen, was passiert!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Cache das DataFrame
df. - Erkläre die Verarbeitung des DataFrames
agg_result. - Hebe nach der Verarbeitung das Caching des DataFrames
dfmitunpersist()auf.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____