Définir des valeurs NA personnalisées
Une partie de l’exploration et du nettoyage des données consiste à vérifier la présence de valeurs manquantes (NA) et à décider comment les traiter. C’est plus simple lorsque les valeurs manquantes sont considérées comme un type de données à part, et il existe des fonctions pandas qui ciblent spécifiquement ces valeurs NA. pandas traite automatiquement certaines valeurs comme manquantes, mais nous pouvons fournir des indicateurs NA supplémentaires avec l’argument na_values. Ici, vous allez l’utiliser pour vous assurer que les codes ZIP invalides dans les données fiscales du Vermont sont codés comme NA.
pandas a été importé sous le nom pd.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Créez un dictionnaire,
null_values, indiquant que les0dans la colonnezipcodedoivent être considérés comme des valeurs NA. - Chargez
vt_tax_data_2016.csv, en utilisant l’argumentna_valueset le dictionnaire pour que les codes ZIP invalides soient traités comme manquants.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create dict specifying that 0s in zipcode are NA values
null_values = {____}
# Load csv using na_values keyword argument
data = pd.read_csv("vt_tax_data_2016.csv",
____)
# View rows with NA ZIP codes
print(data[data.zipcode.isna()])