Uçuş verilerini yükleme

Bu egzersizde bir CSV dosyasından bazı havayolu uçuş verilerini yükleyeceksin. Egzersizin hızlı çalışması için bu veriler yalnızca 50.000 kayda düşürülmüştür. Aynı formatta daha büyük bir veri kümesini buradan edinebilirsin.

CSV biçimiyle ilgili notlar:

alanlar virgülle ayrılır (varsayılan ayırıcı budur) ve
eksik veriler 'NA' dizesiyle gösterilir.

Veri sözlüğü:

mon — ay (1 ile 12 arasında tamsayı)
dom — ayın günü (1 ile 31 arasında tamsayı)
dow — haftanın günü (tamsayı; 1 = Pazartesi ve 7 = Pazar)
carrier — taşıyıcı (IATA kodu)
flight — uçuş numarası
org — kalkış havaalanı (IATA kodu)
mile — mesafe (mil)
depart — kalkış saati (ondalık saat)
duration — beklenen süre (dakika)
delay — gecikme (dakika)

pyspark senin için içe aktarıldı ve oturum başlatıldı.

Not: Veriler yoğun bir şekilde örneklem küçültmeye tabi tutulmuştur.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

flights.csv adlı bir CSV dosyasından veriyi oku. Sütunlara veri türlerini otomatik ata. Eksik verileri ele al.
Veride kaç kayıt var?
İlk beş kayda göz at.
Sütunlara hangi veri türleri atanmış? Bunlar doğru görünüyor mu?

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Kodu Düzenle ve Çalıştır