CommencerCommencer gratuitement

S’exercer au cache : le SQL

Auparavant, nous avons examiné deux DataFrames : df1 et df2 (créé à partir de df1). Nous avons essayé de mettre df1 en cache, mais pas df2. Dans cet exercice, nous allons observer les effets de la mise en cache de df2, mais pas de df1.

Comme précédemment, notez le temps nécessaire à chaque action. Nous les comparerons dans l’exercice suivant. Quelles tâches sont accélérées ? Lesquelles sont ralenties ?

Cet exercice fait partie du cours

Introduction à Spark SQL en Python

Afficher le cours

Instructions

  • Mettez df2 en cache, mais pas df1.
  • Exécutez une première action sur df1 et répétez-la, puis exécutez une action sur df2 et répétez-la. Cela a été fait pour vous.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)
Modifier et exécuter le code