Aangepaste NA-waarden instellen
Een deel van het verkennen en opschonen van data is het controleren op ontbrekende of NA-waarden en beslissen hoe je daarmee omgaat. Dit is eenvoudiger wanneer ontbrekende waarden hun eigen datatype hebben, en er zijn pandas-functies die specifiek op zulke NA-waarden mikken. pandas behandelt sommige waarden automatisch als ontbrekend, maar we kunnen extra NA-indicatoren meegeven met het argument na_values. Hier ga je dat doen om ervoor te zorgen dat ongeldige postcodes (ZIP codes) in de belastingdata van Vermont als NA worden gecodeerd.
pandas is geïmporteerd als pd.
Deze oefening maakt deel uit van de cursus
Gestroomlijnde data-inname met pandas
Oefeninstructies
- Maak een woordenboek,
null_values, waarin je aangeeft dat0'en in de kolomzipcodeals NA-waarden moeten worden beschouwd. - Laad
vt_tax_data_2016.csven gebruik het argumentna_valuesen het woordenboek om ervoor te zorgen dat ongeldige ZIP-codes als ontbrekend worden behandeld.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create dict specifying that 0s in zipcode are NA values
null_values = {____}
# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv",
____)
# View rows with NA ZIP codes
print(data[data.zipcode.isna()])