Hiërarchieën gebruiken voor categorische data
In deze oefening maak en gebruik je hiërarchieën om gegevensgeneralisatie toe te passen op de kolom bachelors van de US Adult Income-gegevensset.
Een begindictionary met de hiërarchieën is beschikbaar als hierarchies. Deze bevat drie categorieën voor onderwijstypen: Primary, Secondary en Higher; elk met een lijst van de bijbehorende onderwijswaarden uit de data. Verken dit gerust in de interactieve console.
We maken een nieuwe dictionary die de gegeneraliseerde onderwijscategorieën bevat en waarmee we de oorspronkelijke waarden vervangen.
De gegevensset is beschikbaar als income_df.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Oefeninstructies
- Initialiseer
education_hierarchyals een lege dictionary. - Maak de interne lus af zodat het onderwijstype
keyals waarde wordt toegekend. Bijvoorbeeld{'Some-college': 'Higher education'}. - Pas generalisatie met de onderwijs-hiërarchie toe op de kolom
bachelorsen sla het resultaat op in de nieuwe kolombachelors_generalized.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())