Uçuş verilerini yükleme
Bu egzersizde bir CSV dosyasından bazı havayolu uçuş verilerini yükleyeceksin. Egzersizin hızlı çalışması için bu veriler yalnızca 50.000 kayda düşürülmüştür. Aynı formatta daha büyük bir veri kümesini buradan edinebilirsin.
CSV biçimiyle ilgili notlar:
- alanlar virgülle ayrılır (varsayılan ayırıcı budur) ve
- eksik veriler 'NA' dizesiyle gösterilir.
Veri sözlüğü:
mon— ay (1 ile 12 arasında tamsayı)dom— ayın günü (1 ile 31 arasında tamsayı)dow— haftanın günü (tamsayı; 1 = Pazartesi ve 7 = Pazar)carrier— taşıyıcı (IATA kodu)flight— uçuş numarasıorg— kalkış havaalanı (IATA kodu)mile— mesafe (mil)depart— kalkış saati (ondalık saat)duration— beklenen süre (dakika)delay— gecikme (dakika)
pyspark senin için içe aktarıldı ve oturum başlatıldı.
Not: Veriler yoğun bir şekilde örneklem küçültmeye tabi tutulmuştur.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
flights.csvadlı bir CSV dosyasından veriyi oku. Sütunlara veri türlerini otomatik ata. Eksik verileri ele al.- Veride kaç kayıt var?
- İlk beş kayda göz at.
- Sütunlara hangi veri türleri atanmış? Bunlar doğru görünüyor mu?
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)