Définir des colonnes booléennes
Certains jeux de données contiennent des colonnes qui doivent idéalement être modélisées en valeurs booléennes. Cependant, pandas les charge généralement en nombres flottants par défaut, car utiliser des booléens par défaut peut avoir des effets indésirables, comme convertir des valeurs NA en True.
fcc_survey_subset.xlsx contient une colonne d’identifiant sous forme de chaîne et plusieurs colonnes True/False indiquant des facteurs de stress financiers. Vous allez déterminer quelles colonnes non ID ne contiennent aucune valeur NA et peuvent donc être définies en booléen, puis indiquer à read_excel() de les charger comme telles via l’argument dtype.
pandas est importé sous le nom pd.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the data
survey_data = pd.read_excel("fcc_survey_subset.xlsx")
# Count NA values in each column
print(survey_data.____)