BaşlayınÜcretsiz başlayın

Bir CSV okuma ve toplulaştırmalar yapma

Elinde, küçükten büyüğe farklı ölçeklerdeki şirketlerden Veri Bilimci maaşlarının yer aldığı bir hesap tablosu var. Şirket boyutuna göre gruplanmış ortalama maaşlarda belirgin bir fark olup olmadığını görmek istiyorsun.

Unutma, çalışma alanında zaten spark adında bir SparkSession var!

Bu egzersiz, kursun bir parçasıdır

PySpark'e Giriş

Kursa Göz Atın

Egzersiz talimatları

  • Bir csv dosyasını DataFrame olarak yükle ve şemayı çıkarımla.
  • Satır sayısını döndür.
  • company_size sütununa göre grupla ve salary_in_usd ile ortalama maaşı hesapla.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Kodu Düzenle ve Çalıştır