Nüfus sayımı verilerini yükleme
Haydi ilk PySpark DataFrame'ini oluşturmaya başlayalım! adult_reduced.csv dosyası, çeşitli demografik kategorilere göre gruplanmış yetişkinleri içerir. Bu veriler ABD Nüfus Sayımı'ndan uyarlanmıştır. Toplamda 32562 yetişkin grubuyla karşılaşacaksın.
CSV'yi yükleyip ortaya çıkan şemaya bakalım.
Veri sözlüğü:
| Değişken | Açıklama |
|---|---|
| age | Bireyin yaşı |
| education_num | Derece bazında eğitim |
| marital_status | Medeni durum |
| occupation | Meslek |
| income | Kategorik gelir |
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
spark.read.csv()yöntemini kullanarak"adult_reduced.csv"dosyasından bir PySpark DataFrame oluştur.- Ortaya çıkan DataFrame'i göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____