Melakukan kueri pada temp view
Dalam latihan ini, Anda akan berlatih mendaftarkan sebuah DataFrame sebagai temporary SQL view di PySpark. Temporary view adalah alat yang kuat yang memungkinkan Anda melakukan kueri data menggunakan sintaks SQL, sehingga manipulasi data yang kompleks menjadi lebih mudah dan intuitif. Tujuan Anda adalah membuat sebuah view dari DataFrame yang disediakan dan menjalankan kueri SQL terhadapnya, sebuah tugas umum dalam pekerjaan ETL dan ELT.
Anda sudah memiliki SparkContext, spark, dan sebuah DataFrame PySpark, df, di ruang kerja Anda.
Latihan ini merupakan bagian dari kursus
Pengantar PySpark
Instruksi latihan
- Daftarkan view baru bernama
"data_view"dari DataFramedf. - Jalankan kueri SQL yang disediakan untuk menghitung total gaji berdasarkan posisi.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Register as a view
df.____("data_view")
# Advanced SQL query: Calculate total salary by Position
result = ____("""
SELECT Position, SUM(Salary) AS Total_Salary
FROM data_view
GROUP BY Position
ORDER BY Total_Salary DESC
"""
)
result.show()