MulaiMulai sekarang secara gratis

Latihan caching: bagian 1

Dalam beberapa latihan berikutnya, Anda akan bereksperimen dengan berbagai cara melakukan caching pada dua DataFrame.

Sebuah dataframe df1 dimuat dari file csv. Beberapa langkah pemrosesan dilakukan padanya. Karena df1 akan digunakan lebih dari sekali, dataframe ini merupakan kandidat untuk di-cache.

Dataframe kedua df2 dibuat dengan melakukan langkah-langkah tambahan yang intensif komputasi pada df1. Ini juga merupakan kandidat untuk di-cache.

Karena df2 bergantung pada df1, muncul pertanyaan: apakah lebih baik melakukan caching pada df1, atau melakukan caching pada df2?

Pada latihan ini, kita akan mencoba melakukan caching pada df1. Catat waktu yang dibutuhkan untuk setiap aksi. Kita akan membandingkannya pada latihan berikutnya.

Latihan ini adalah bagian dari kursus

Pengantar Spark SQL dalam Python

Lihat Kursus

Petunjuk latihan

  • Hanya lakukan caching pada df1.
  • Jalankan aksi pertama pada df1 dan ulangi, lalu jalankan sebuah aksi pada df2 dan ulangi. Ini sudah disiapkan untuk Anda.
  • Pastikan apakah df1 sudah di-cache atau belum.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Unpersists df1 and df2 and initializes a timer
prep(df1, df2) 

# Cache df1
____

# Run actions on both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)

# Prove df1 is cached
print(____)
Edit dan Jalankan Kode