Benutzerdefinierte NA-Werte festlegen

Ein Teil der Datenexploration und -bereinigung besteht darin, auf fehlende bzw. NA-Werte zu prüfen und zu entscheiden, wie damit umzugehen ist. Das ist einfacher, wenn fehlende Werte als eigener Datentyp behandelt werden. Es gibt pandas-Funktionen, die speziell solche NA-Werte adressieren. pandas behandelt einige Werte automatisch als fehlend, aber wir können mit dem Argument na_values zusätzliche NA-Indikatoren übergeben. Hier machst du das, um sicherzustellen, dass ungültige Postleitzahlen in den Vermont-Steuerdaten als NA codiert werden.

pandas wurde als pd importiert.

Diese Übung ist Teil des Kurses

<Kurs>Vereinfachte Datenaufnahme mit pandas</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle ein Dictionary null_values, das angibt, dass 0 in der Spalte zipcode als NA-Werte betrachtet werden sollen.
Lade vt_tax_data_2016.csv und verwende das Argument na_values zusammen mit dem Dictionary, damit ungültige Postleitzahlen als fehlend behandelt werden.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create dict specifying that 0s in zipcode are NA values
null_values = {____}

# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv", 
                   ____)

# View rows with NA ZIP codes
print(data[data.zipcode.isna()])

Code bearbeiten und ausführen