BaşlayınÜcretsiz Başlayın

Bir CSV okuma ve toplulaştırmalar yapma

Elinde, küçükten büyüğe farklı ölçeklerdeki şirketlerden Veri Bilimci maaşlarının yer aldığı bir hesap tablosu var. Şirket boyutuna göre gruplanmış ortalama maaşlarda belirgin bir fark olup olmadığını görmek istiyorsun.

Unutma, çalışma alanında zaten spark adında bir SparkSession var!

Bu egzersiz

PySpark'e Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Bir csv dosyasını DataFrame olarak yükle ve şemayı çıkarımla.
  • Satır sayısını döndür.
  • company_size sütununa göre grupla ve salary_in_usd ile ortalama maaşı hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load the CSV file into a DataFrame
salaries_df = ____("salaries.csv", header=True, inferSchema=____)

# Count the total number of rows
row_count = salaries_df.____
print(f"Total rows: {row_count}")

# Group by company size and calculate the average of salaries
salaries_df.____("company_size").____({"salary_in_usd": "avg"}).show()
salaries_df.show()
Kodu Düzenle ve Çalıştır