Berlatih caching: SQL
Sebelumnya, kita meninjau dua DataFrame: df1 dan df2 (yang dibuat dari df1). Kita mencoba melakukan caching pada df1, tetapi tidak pada df2. Pada latihan ini, kita akan melihat dampak melakukan caching pada df2, tetapi tidak pada df1.
Sekali lagi, catat berapa lama waktu yang dibutuhkan setiap aksi. Kita akan membandingkannya di latihan berikutnya. Tugas mana yang menjadi lebih cepat? Mana yang melambat?
Latihan ini adalah bagian dari kursus
Pengantar Spark SQL dalam Python
Petunjuk latihan
- Lakukan caching pada
df2, tetapi tidak padadf1. - Jalankan aksi pertama pada
df1lalu ulangi, kemudian jalankan aksi padadf2dan ulangi. Hal ini sudah disiapkan untuk Anda.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)