Bir CSV okuma ve toplulaştırmalar yapma
Elinde, küçükten büyüğe farklı ölçeklerdeki şirketlerden Veri Bilimci maaşlarının yer aldığı bir hesap tablosu var. Şirket boyutuna göre gruplanmış ortalama maaşlarda belirgin bir fark olup olmadığını görmek istiyorsun.
Unutma, çalışma alanında zaten spark adında bir SparkSession var!
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Bir csv dosyasını DataFrame olarak yükle ve şemayı çıkarımla.
- Satır sayısını döndür.
company_sizesütununa göre grupla vesalary_in_usdile ortalama maaşı hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()