Rassembler le tout II
Créez un DataFrame, appliquez des transformations, mettez-le en cache et vérifiez s’il est bien mis en cache. Ensuite, retirez-le du cache pour libérer de la mémoire.
Pour cet exercice, une session spark a été créée pour vous ! Regardez attentivement le résultat de la méthode .explain() pour comprendre ce qui se passe !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Mettez en cache le DataFrame
df. - Expliquez le traitement du DataFrame
agg_result. - Supprimez du cache (unpersist) le DataFrame
dfaprès le traitement.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____