1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Odstraňování sloupců a řádků

V předchozím cvičení jsi načetl/a letová data z CSV souboru. Teď budeš sestavovat model, který předpoví, jestli daný let nabere zpoždění, nebo ne.

V tomto cvičení data nejprve zredukuješ:

  1. odstraň neinformativní sloupec a
  2. odstraň řádky, u kterých chybí informace o tom, zda let měl zpoždění.

Data jsou k dispozici jako flights.

Poznámka: Může se ti hodit projít si snímky z lekcí v panelu Slides vedle IPython Shell.

Pokyny

100 XP
  • Odstraň sloupec flight.
  • Zjisti, kolik záznamů má chybějící hodnoty ve sloupci delay.
  • Odstraň záznamy s chybějícími hodnotami ve sloupci delay.
  • Odstraň záznamy s chybějícími hodnotami v jakémkoli sloupci a zjisti, kolik řádků zbyde.