Bir PySpark groupby işlemi
dask çatısını ve onun DataFrame soyutlamasını bazı hesaplamalar için nasıl kullanacağını gördün. Ancak videoda da gördüğün gibi, büyük veri dünyasında veri işleme için Spark muhtemelen daha popüler bir seçenek.
Bu egzersizde, bir Spark DataFrame'ini yönetmek için PySpark paketini kullanacaksın. Veriler önceki egzersizlerle aynı: 1896 ile 2016 arasındaki Olimpiyat etkinliklerine katılan sporcular.
Spark DataFrame'i athlete_events_spark çalışma alanında mevcut.
Bu egzersizde kullanacağın yöntemler:
.printSchema(): Bir Spark DataFrame'inin şemasını yazdırmaya yardımcı olur..groupBy(): Bir toplulaştırma için gruplama ifadesi..mean(): Her grup için ortalamayı alır..show(): Sonuçları gösterir.
Bu egzersiz
Data Engineering'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
athlete_events_spark'ın türünü bul.athlete_events_spark'ın şemasını bul.- Yıla göre gruplandırarak Olimpiyat sporcularının ortalama yaşını yazdır. Dikkat et, Spark aslında henüz hiçbir şey hesaplamadı. Buna tembel değerlendirme (lazy evaluation) diyebilirsin.
- Önceki sonucu al ve ortalama yaşı hesaplamak için sonuç üzerinde
.show()çağır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())