1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Streamlined Data Ingestion with pandas

Connected

cvičení

Přeskakování chybných dat

V tomto cvičení použiješ parametry funkce read_csv() k načítání souborů s chybnými daty, například záznamů, které obsahují více hodnot, než je sloupců. Ve výchozím nastavení takový soubor způsobí specifickou chybu: pandas.errors.ParserError.

Některé řádky v datech daňových přiznání z Vermontu jsou poškozené. Abychom mohli načíst správné řádky, musíme říct pandas, aby chyby přeskakoval. Zároveň chceme, aby nás pandas upozornil pokaždé, když řádek přeskočí – ať víme, jak rozsáhlý problém s daty máme.

pandas je naimportovaný jako pd. Kód cvičení se pokusí soubor načíst. Pokud nastane chyba pandas.errors.ParserError, spustí se kód v bloku except.

Instrukce 1/3

undefined XP
  • 1

    Zkus importovat soubor vt_tax_data_2016_corrupt.csv bez jakýchkoli keyword argumentů.

  • 2

    Importuj soubor vt_tax_data_2016_corrupt.csv s parametrem error_bad_lines nastaveným tak, aby přeskakoval chybné záznamy.

  • 3

    Doplň import o parametr warn_bad_lines nastavený tak, aby zobrazil upozornění vždy, když je chybný záznam přeskočen.