Agregasi di PySpark
Sekarang Anda siap melakukan agregasi sendiri!
Anda akan menggunakan himpunan data gaji yang sudah Anda pakai sebelumnya. Mari kita lihat agregasi apa yang dapat Anda buat!
Sebuah SparkSession bernama spark sudah tersedia di ruang kerja Anda, beserta Spark DataFrame salaries_df.
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Temukan gaji minimum di perusahaan kecil di AS — lakukan penyaringan dengan mereferensikan kolom secara langsung (
"salary_in_usd"), bukan dengan memberikan string SQL. - Temukan gaji maksimum di perusahaan besar di AS, ditandai dengan
"L"— lakukan penyaringan dengan mereferensikan kolom secara langsung ("salary_in_usd"), bukan dengan memberikan string SQL.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()
# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()