MulaiMulai sekarang secara gratis

Menggabungkan semuanya II

Buat sebuah DataFrame, terapkan transformasi, lakukan cache, dan periksa apakah DataFrame tersebut sudah di-cache. Lalu, hapus cache untuk membebaskan memori. Untuk latihan ini sesi spark telah disediakan untuk Anda! Perhatikan dengan saksama keluaran dari metode .explain() untuk memahami apa hasilnya!

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Lakukan cache pada DataFrame df.
  • Jelaskan pemrosesan DataFrame agg_result.
  • Hapus persistensi (unpersist) DataFrame df yang di-cache setelah pemrosesan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Cache the DataFrame
df.____

# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()

# Analyze the execution plan
agg_result.____

# Uncache the DataFrame
df.____
Edit dan Jalankan Kode