Menggabungkan semuanya II
Buat sebuah DataFrame, terapkan transformasi, lakukan cache, dan periksa apakah DataFrame tersebut sudah di-cache. Lalu, hapus cache untuk membebaskan memori.
Untuk latihan ini sesi spark telah disediakan untuk Anda! Perhatikan dengan saksama keluaran dari metode .explain() untuk memahami apa hasilnya!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Lakukan cache pada DataFrame
df. - Jelaskan pemrosesan DataFrame
agg_result. - Hapus persistensi (unpersist) DataFrame
dfyang di-cache setelah pemrosesan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____