Oefenen met cachen: de SQL
Eerder bekeken we twee DataFrames: df1 en df2 (dat is afgeleid van df1). We probeerden df1 te cachen, maar niet df2. In deze oefening bekijken we wat er gebeurt als je df2 cachet, maar niet df1.
Let opnieuw op de tijd die elke actie kost. We vergelijken deze in de volgende oefening. Welke taken worden sneller? Welke juist langzamer?
Deze oefening maakt deel uit van de cursus
Introductie tot Spark SQL in Python
Oefeninstructies
- Cache
df2, maar nietdf1. - Voer een eerste actie uit op
df1en herhaal die, voer dan een actie uit opdf2en herhaal die. Dit is al voor je gedaan.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)