S’exercer au cache : le SQL
Auparavant, nous avons examiné deux DataFrames : df1 et df2 (créé à partir de df1). Nous avons essayé de mettre df1 en cache, mais pas df2. Dans cet exercice, nous allons observer les effets de la mise en cache de df2, mais pas de df1.
Comme précédemment, notez le temps nécessaire à chaque action. Nous les comparerons dans l’exercice suivant. Quelles tâches sont accélérées ? Lesquelles sont ralenties ?
Cet exercice fait partie du cours
Introduction à Spark SQL en Python
Instructions
- Mettez
df2en cache, mais pasdf1. - Exécutez une première action sur
df1et répétez-la, puis exécutez une action surdf2et répétez-la. Cela a été fait pour vous.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)