1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Streamlined Data Ingestion with pandas

Connected

cvičení

Nastavení vlastních hodnot NA

Součástí průzkumu a čištění dat je kontrola chybějících hodnot a hodnot NA a rozhodnutí, jak s nimi naložit. Je to jednodušší, když jsou chybějící hodnoty považovány za vlastní datový typ – pandas nabízí funkce, které se na takové hodnoty NA přímo zaměřují. pandas sice automaticky rozpozná některé hodnoty jako chybějící, ale pomocí argumentu na_values můžeme přidat další vlastní indikátory NA. V tomto cvičení to využiješ k tomu, aby neplatná PSČ v datech daňových přiznání z Vermontu byla zakódována jako NA.

pandas je importován jako pd.

Pokyny

100 XP
  • Vytvoř slovník null_values, který určí, že hodnoty 0 ve sloupci zipcode mají být považovány za NA.
  • Načti soubor vt_tax_data_2016.csv s použitím argumentu na_values a tohoto slovníku, aby neplatná PSČ byla správně označena jako chybějící.