CommencerCommencer gratuitement

Rassembler le tout II

Créez un DataFrame, appliquez des transformations, mettez-le en cache et vérifiez s’il est bien mis en cache. Ensuite, retirez-le du cache pour libérer de la mémoire. Pour cet exercice, une session spark a été créée pour vous ! Regardez attentivement le résultat de la méthode .explain() pour comprendre ce qui se passe !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Mettez en cache le DataFrame df.
  • Expliquez le traitement du DataFrame agg_result.
  • Supprimez du cache (unpersist) le DataFrame df après le traitement.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Cache the DataFrame
df.____

# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()

# Analyze the execution plan
agg_result.____

# Uncache the DataFrame
df.____
Modifier et exécuter le code