Mulai sekarangMulai gratis

GroupBy di PySpark

Anda telah melihat cara menggunakan kerangka kerja dask dan abstraksi DataFrame-nya untuk melakukan beberapa perhitungan. Namun, seperti yang Anda lihat di video, dalam dunia big data, Spark mungkin menjadi pilihan yang lebih populer untuk pemrosesan data.

Dalam latihan ini, Anda akan menggunakan paket PySpark untuk menangani sebuah Spark DataFrame. Datanya sama seperti pada latihan sebelumnya: peserta ajang Olimpiade antara tahun 1896 hingga 2016.

Spark DataFrame, athlete_events_spark, tersedia di workspace Anda.

Metode yang akan Anda gunakan dalam latihan ini adalah:

  • .printSchema(): membantu mencetak skema sebuah Spark DataFrame.
  • .groupBy(): pernyataan pengelompokan untuk agregasi.
  • .mean(): mengambil nilai rata-rata untuk setiap grup.
  • .show(): menampilkan hasil.

Latihan ini merupakan bagian dari kursus

Pengantar Data Engineering

Lihat Kursus

Instruksi latihan

  • Ketahui tipe dari athlete_events_spark.
  • Ketahui skema dari athlete_events_spark.
  • Cetak rata-rata usia para atlet Olimpiade, dikelompokkan berdasarkan tahun. Perhatikan bahwa Spark sebenarnya belum menghitung apa pun. Ini disebut evaluasi malas (lazy evaluation).
  • Gunakan hasil sebelumnya, lalu panggil .show() pada hasil tersebut untuk menghitung rata-rata usia.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Edit dan Jalankan Kode