Alles samenbrengen II
Maak een DataFrame, pas transformaties toe, cache het en controleer of het is gecachet. Maak het daarna weer vrij uit het geheugen door het te uncache-en.
Voor deze oefening is er al een spark-session voor je aangemaakt! Kijk goed naar de output van de methode .explain() om te begrijpen wat het resultaat is!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Cache het
df-DataFrame. - Leg de verwerking van het
agg_result-DataFrame uit met.explain(). - Unpersist het gecachte
df-DataFrame na de verwerking.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____