BaşlayınÜcretsiz Başlayın

Bir PySpark groupby işlemi

dask çatısını ve onun DataFrame soyutlamasını bazı hesaplamalar için nasıl kullanacağını gördün. Ancak videoda da gördüğün gibi, büyük veri dünyasında veri işleme için Spark muhtemelen daha popüler bir seçenek.

Bu egzersizde, bir Spark DataFrame'ini yönetmek için PySpark paketini kullanacaksın. Veriler önceki egzersizlerle aynı: 1896 ile 2016 arasındaki Olimpiyat etkinliklerine katılan sporcular.

Spark DataFrame'i athlete_events_spark çalışma alanında mevcut.

Bu egzersizde kullanacağın yöntemler:

  • .printSchema(): Bir Spark DataFrame'inin şemasını yazdırmaya yardımcı olur.
  • .groupBy(): Bir toplulaştırma için gruplama ifadesi.
  • .mean(): Her grup için ortalamayı alır.
  • .show(): Sonuçları gösterir.

Bu egzersiz

Data Engineering'e Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • athlete_events_spark'ın türünü bul.
  • athlete_events_spark'ın şemasını bul.
  • Yıla göre gruplandırarak Olimpiyat sporcularının ortalama yaşını yazdır. Dikkat et, Spark aslında henüz hiçbir şey hesaplamadı. Buna tembel değerlendirme (lazy evaluation) diyebilirsin.
  • Önceki sonucu al ve ortalama yaşı hesaplamak için sonuç üzerinde .show() çağır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Kodu Düzenle ve Çalıştır