Utiliser des hiérarchies pour des données catégorielles
Dans cet exercice, vous allez créer et utiliser des hiérarchies pour appliquer une généralisation des données sur la colonne bachelors du jeu de données US Adult Income.
Un dictionnaire initial contenant les hiérarchies vous est fourni sous le nom hierarchies. Il contient trois catégories pour les niveaux d’études : Primary, Secondary et Higher ; chacune comporte la liste des valeurs d’éducation correspondantes présentes dans les données. N’hésitez pas à l’explorer dans la console interactive.
Nous allons créer un nouveau dictionnaire qui contiendra l’information d’éducation généralisée et l’utiliser pour remplacer les valeurs d’origine.
Le jeu de données est disponible sous le nom income_df.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Instructions
- Initialisez
education_hierarchycomme un dictionnaire vide. - Complétez la boucle interne pour affecter le type d’étude
keycomme valeur. Par exemple :{'Some-college': 'Higher education'}. - Appliquez la généralisation via la hiérarchie d’éducation à la colonne
bachelors, et affectez le résultat à la nouvelle colonnebachelors_generalized.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())