RDD'leri toplama (Collect)
Bu egzersizde, PySpark’ta hem RDD’lerle hem de DataFrame’lerle çalışacaksın. Amacın, verileri gruplamak ve hem RDD işlemleri hem de DataFrame yöntemleriyle toplulaştırma yapmak.
Bir CSV dosyasındaki çalışan maaşı verilerini PySpark’a bir RDD olarak yükleyeceksin. Ardından deneyim düzeyine göre gruplandırıp, her deneyim düzeyi için azami maaşı bir DataFrame üzerinden hesaplayacaksın. Böylece her iki veri formatının göreli güçlü yönlerini göreceksin.
Kullanacağın veri kümesi Data Scientist Salaries ile ilgili; yani piyasa trendlerini bulmak senin yararına! Verileri senin için zaten yükledik ve normalize ettik! Unutma, çalışma alanında spark adlı bir SparkSession hazır!
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Bir DataFrame’den bir RDD oluştur.
- RDD ve DataFrame sonuçlarını topla ve görüntüle.
"experience_level"sütununa göre grupla ve her biri için azami maaşı hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____
# Collect and print the results
print(rdd_salaries.____)
# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})
# Show the results
dataframe_results.____