Mulai sekarangMulai gratis

Menggabungkan semuanya II

Buat sebuah DataFrame, terapkan transformasi, lakukan cache, dan periksa apakah DataFrame tersebut sudah di-cache. Lalu, hapus cache untuk membebaskan memori. Untuk latihan ini sesi spark telah disediakan untuk Anda! Perhatikan dengan saksama keluaran dari metode .explain() untuk memahami apa hasilnya!

Latihan ini merupakan bagian dari kursus

Pengantar PySpark

Lihat Kursus

Instruksi latihan

  • Lakukan cache pada DataFrame df.
  • Jelaskan pemrosesan DataFrame agg_result.
  • Hapus persistensi (unpersist) DataFrame df yang di-cache setelah pemrosesan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Cache the DataFrame
df.____

# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()

# Analyze the execution plan
agg_result.____

# Uncache the DataFrame
df.____
Edit dan Jalankan Kode