Définir des colonnes booléennes

Certains jeux de données contiennent des colonnes qui doivent idéalement être modélisées en valeurs booléennes. Cependant, pandas les charge généralement en nombres flottants par défaut, car utiliser des booléens par défaut peut avoir des effets indésirables, comme convertir des valeurs NA en True.

fcc_survey_subset.xlsx contient une colonne d’identifiant sous forme de chaîne et plusieurs colonnes True/False indiquant des facteurs de stress financiers. Vous allez déterminer quelles colonnes non ID ne contiennent aucune valeur NA et peuvent donc être définies en booléen, puis indiquer à read_excel() de les charger comme telles via l’argument dtype.

pandas est importé sous le nom pd.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load the data
survey_data = pd.read_excel("fcc_survey_subset.xlsx")

# Count NA values in each column
print(survey_data.____)

Modifier et exécuter le code