Sütunları ve satırları kaldırma
Daha önce bir CSV dosyasından havayolu uçuş verilerini yükledin. Verilen bir uçuşun gecikip gecikmeyeceğini tahmin edecek bir model geliştireceksin.
Bu egzersizde verileri aşağıdaki şekilde sadeleştirmen gerekiyor:
- bilgi içermeyen bir sütunu kaldırmak ve
- bir uçuşun gecikip gecikmediğine dair bilgi içermeyen satırları kaldırmak.
Veriler flights olarak mevcut.
Not: IPython Shell'in yanındaki Slaytlar panelindeki ders slaytlarını gözden geçirmek faydalı olabilir.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
flightsütununu kaldır.delaysütununda eksik değer bulunan kaç kayıt olduğunu bul.delaysütununda eksik değer bulunan kayıtları kaldır.- Herhangi bir sütunda eksik değer bulunan kayıtları kaldır ve kalan satır sayısını al.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())