IniziaInizia gratis

Esercitarsi con il caching: la SQL

In precedenza abbiamo esaminato due DataFrame: df1 e df2 (creato a partire da df1). Abbiamo provato a mettere in cache df1, ma non df2. In questo esercizio analizzeremo gli effetti di mettere in cache df2, ma non df1.

Anche qui, prendi nota del tempo impiegato da ogni azione. Confronteremo questi tempi nel prossimo esercizio. Quali attività risultano più rapide? Quali invece più lente?

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Metti in cache df2, ma non df1.
  • Esegui una prima azione su df1 e ripetila, poi esegui un'azione su df2 e ripetila. Questo è già stato fatto per te.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)
Modifica ed esegui il codice