Menggabungkan semuanya II
Buat sebuah DataFrame, terapkan transformasi, lakukan cache, dan periksa apakah DataFrame tersebut sudah di-cache. Lalu, hapus cache untuk membebaskan memori.
Untuk latihan ini sesi spark telah disediakan untuk Anda! Perhatikan dengan saksama keluaran dari metode .explain() untuk memahami apa hasilnya!
Latihan ini merupakan bagian dari kursus
Pengantar PySpark
Instruksi latihan
- Lakukan cache pada DataFrame
df. - Jelaskan pemrosesan DataFrame
agg_result. - Hapus persistensi (unpersist) DataFrame
dfyang di-cache setelah pemrosesan.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____