Mengumpulkan RDD
Pada latihan ini, Anda akan bekerja dengan RDD dan DataFrame di PySpark. Tujuannya adalah mengelompokkan data dan melakukan agregasi menggunakan operasi RDD dan metode DataFrame.
Anda akan memuat berkas CSV berisi data gaji karyawan ke PySpark sebagai RDD. Kemudian Anda akan melakukan pengelompokan berdasarkan data tingkat pengalaman dan menghitung gaji maksimum untuk setiap tingkat pengalaman dari sebuah DataFrame. Dengan melakukan ini, Anda akan melihat keunggulan relatif dari kedua format data tersebut.
Himpunan data yang Anda gunakan terkait Gaji Data Scientist, jadi menemukan tren pasar akan sangat bermanfaat! Kami sudah memuat dan menormalkan datanya untuk Anda! Ingat, sudah ada SparkSession bernama spark di ruang kerja Anda!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Buat RDD dari sebuah DataFrame.
- Kumpulkan dan tampilkan hasil dari RDD dan DataFrame.
- Kelompokkan berdasarkan
"experience_level"dan hitung gaji maksimum untuk masing-masing.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____
# Collect and print the results
print(rdd_salaries.____)
# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})
# Show the results
dataframe_results.____