Bir CSV okuma ve toplulaştırmalar yapma
Elinde, küçükten büyüğe farklı ölçeklerdeki şirketlerden Veri Bilimci maaşlarının yer aldığı bir hesap tablosu var. Şirket boyutuna göre gruplanmış ortalama maaşlarda belirgin bir fark olup olmadığını görmek istiyorsun.
Unutma, çalışma alanında zaten spark adında bir SparkSession var!
Bu egzersiz, kursun bir parçasıdır
PySpark'e Giriş
Egzersiz talimatları
- Bir csv dosyasını DataFrame olarak yükle ve şemayı çıkarımla.
- Satır sayısını döndür.
company_sizesütununa göre grupla vesalary_in_usdile ortalama maaşı hesapla.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)
# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")
# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()