Melakukan kueri pada temp view
Dalam latihan ini, Anda akan berlatih mendaftarkan sebuah DataFrame sebagai temporary SQL view di PySpark. Temporary view adalah alat yang kuat yang memungkinkan Anda melakukan kueri data menggunakan sintaks SQL, sehingga manipulasi data yang kompleks menjadi lebih mudah dan intuitif. Tujuan Anda adalah membuat sebuah view dari DataFrame yang disediakan dan menjalankan kueri SQL terhadapnya, sebuah tugas umum dalam pekerjaan ETL dan ELT.
Anda sudah memiliki SparkContext, spark, dan sebuah DataFrame PySpark, df, di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Daftarkan view baru bernama
"data_view"dari DataFramedf. - Jalankan kueri SQL yang disediakan untuk menghitung total gaji berdasarkan posisi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()