Benutzerdefinierte NA-Werte festlegen
Ein Teil der Datenexploration und -bereinigung besteht darin, auf fehlende bzw. NA-Werte zu prüfen und zu entscheiden, wie damit umzugehen ist. Das ist einfacher, wenn fehlende Werte als eigener Datentyp behandelt werden. Es gibt pandas-Funktionen, die speziell solche NA-Werte adressieren. pandas behandelt einige Werte automatisch als fehlend, aber wir können mit dem Argument na_values zusätzliche NA-Indikatoren übergeben. Hier machst du das, um sicherzustellen, dass ungültige Postleitzahlen in den Vermont-Steuerdaten als NA codiert werden.
pandas wurde als pd importiert.
Diese Übung ist Teil des Kurses
Vereinfachte Datenaufnahme mit pandas
Anleitung zur Übung
- Erstelle ein Dictionary
null_values, das angibt, dass0in der Spaltezipcodeals NA-Werte betrachtet werden sollen. - Lade
vt_tax_data_2016.csvund verwende das Argumentna_valueszusammen mit dem Dictionary, damit ungültige Postleitzahlen als fehlend behandelt werden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create dict specifying that 0s in zipcode are NA values
null_values = {____}
# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv",
____)
# View rows with NA ZIP codes
print(data[data.zipcode.isna()])