Alles zusammenführen II
Erstelle einen DataFrame, wende Transformationen an, cache diesen und prüfe, ob er im Cache enthalten ist. Hebe anschließend das Caching auf, um Speicher freizugeben.
Für diese Übung wurde eine spark-Session für dich erstellt! Sieh dir das Ergebnis der Methode .explain() genau an, um zu verstehen, was passiert!
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
- Cache den DataFrame
df. - Erkläre die Verarbeitung des DataFrames
agg_result. - Hebe nach der Verarbeitung das Caching des DataFrames
dfmitunpersist()auf.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____