1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Usuwanie kolumn i wierszy

Wcześniej wczytano dane o lotach z pliku CSV. Teraz zbudujesz model, który będzie przewidywał, czy dany lot zostanie opóźniony.

W tym ćwiczeniu należy ograniczyć zbiór danych przez:

  1. usunięcie nieinformatywnej kolumny oraz
  2. usunięcie wierszy, w których brakuje informacji o tym, czy lot był opóźniony.

Dane są dostępne jako flights.

Uwaga: Warto przejrzeć slajdy z lekcji w panelu Slajdy obok powłoki IPython.

Instrukcje

100 XP
  • Usuń kolumnę flight.
  • Sprawdź, ile rekordów ma brakujące wartości w kolumnie delay.
  • Usuń rekordy z brakującymi wartościami w kolumnie delay.
  • Usuń rekordy z brakującymi wartościami w dowolnej kolumnie i pobierz liczbę pozostałych wierszy.