GroupBy di PySpark
Anda telah melihat cara menggunakan kerangka kerja dask dan abstraksi DataFrame-nya untuk melakukan beberapa perhitungan. Namun, seperti yang Anda lihat di video, dalam dunia big data, Spark mungkin menjadi pilihan yang lebih populer untuk pemrosesan data.
Dalam latihan ini, Anda akan menggunakan paket PySpark untuk menangani sebuah Spark DataFrame. Datanya sama seperti pada latihan sebelumnya: peserta ajang Olimpiade antara tahun 1896 hingga 2016.
Spark DataFrame, athlete_events_spark, tersedia di workspace Anda.
Metode yang akan Anda gunakan dalam latihan ini adalah:
.printSchema(): membantu mencetak skema sebuah Spark DataFrame..groupBy(): pernyataan pengelompokan untuk agregasi..mean(): mengambil nilai rata-rata untuk setiap grup..show(): menampilkan hasil.
Latihan ini adalah bagian dari kursus
Pengantar Data Engineering
Petunjuk latihan
- Ketahui tipe dari
athlete_events_spark. - Ketahui skema dari
athlete_events_spark. - Cetak rata-rata usia para atlet Olimpiade, dikelompokkan berdasarkan tahun. Perhatikan bahwa Spark sebenarnya belum menghitung apa pun. Ini disebut evaluasi malas (lazy evaluation).
- Gunakan hasil sebelumnya, lalu panggil
.show()pada hasil tersebut untuk menghitung rata-rata usia.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())