Définir des valeurs NA personnalisées

Une partie de l’exploration et du nettoyage des données consiste à vérifier la présence de valeurs manquantes (NA) et à décider comment les traiter. C’est plus simple lorsque les valeurs manquantes sont considérées comme un type de données à part, et il existe des fonctions pandas qui ciblent spécifiquement ces valeurs NA. pandas traite automatiquement certaines valeurs comme manquantes, mais nous pouvons fournir des indicateurs NA supplémentaires avec l’argument na_values. Ici, vous allez l’utiliser pour vous assurer que les codes ZIP invalides dans les données fiscales du Vermont sont codés comme NA.

pandas a été importé sous le nom pd.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Instructions de l’exercice

Créez un dictionnaire, null_values, indiquant que les 0 dans la colonne zipcode doivent être considérés comme des valeurs NA.
Chargez vt_tax_data_2016.csv, en utilisant l’argument na_values et le dictionnaire pour que les codes ZIP invalides soient traités comme manquants.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create dict specifying that 0s in zipcode are NA values
null_values = {____}

# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv", 
                   ____)

# View rows with NA ZIP codes
print(data[data.zipcode.isna()])

Modifier et exécuter le code