MulaiMulai sekarang secara gratis

Melakukan kueri pada temp view

Dalam latihan ini, Anda akan berlatih mendaftarkan sebuah DataFrame sebagai temporary SQL view di PySpark. Temporary view adalah alat yang kuat yang memungkinkan Anda melakukan kueri data menggunakan sintaks SQL, sehingga manipulasi data yang kompleks menjadi lebih mudah dan intuitif. Tujuan Anda adalah membuat sebuah view dari DataFrame yang disediakan dan menjalankan kueri SQL terhadapnya, sebuah tugas umum dalam pekerjaan ETL dan ELT.

Anda sudah memiliki SparkContext, spark, dan sebuah DataFrame PySpark, df, di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Daftarkan view baru bernama "data_view" dari DataFrame df.
  • Jalankan kueri SQL yang disediakan untuk menghitung total gaji berdasarkan posisi.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Register as a view
df.____("data_view")

# Advanced SQL query: Calculate total salary by Position
result = ____("""
    SELECT Position, SUM(Salary) AS Total_Salary
    FROM data_view
    GROUP BY Position
    ORDER BY Total_Salary DESC
    """
)
result.show()
Edit dan Jalankan Kode