BaşlayınÜcretsiz Başlayın

Sütunları ve satırları kaldırma

Daha önce bir CSV dosyasından havayolu uçuş verilerini yükledin. Verilen bir uçuşun gecikip gecikmeyeceğini tahmin edecek bir model geliştireceksin.

Bu egzersizde verileri aşağıdaki şekilde sadeleştirmen gerekiyor:

  1. bilgi içermeyen bir sütunu kaldırmak ve
  2. bir uçuşun gecikip gecikmediğine dair bilgi içermeyen satırları kaldırmak.

Veriler flights olarak mevcut.

Not: IPython Shell'in yanındaki Slaytlar panelindeki ders slaytlarını gözden geçirmek faydalı olabilir.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • flight sütununu kaldır.
  • delay sütununda eksik değer bulunan kaç kayıt olduğunu bul.
  • delay sütununda eksik değer bulunan kayıtları kaldır.
  • Herhangi bir sütunda eksik değer bulunan kayıtları kaldır ve kalan satır sayısını al.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Kodu Düzenle ve Çalıştır