Aan de slagGa gratis aan de slag

Oefenen met cachen: de SQL

Eerder bekeken we twee DataFrames: df1 en df2 (dat is afgeleid van df1). We probeerden df1 te cachen, maar niet df2. In deze oefening bekijken we wat er gebeurt als je df2 cachet, maar niet df1.

Let opnieuw op de tijd die elke actie kost. We vergelijken deze in de volgende oefening. Welke taken worden sneller? Welke juist langzamer?

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Cursus bekijken

Oefeninstructies

  • Cache df2, maar niet df1.
  • Voer een eerste actie uit op df1 en herhaal die, voer dan een actie uit op df2 en herhaal die. Dit is al voor je gedaan.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)
Code bewerken en uitvoeren