Aan de slagGa gratis aan de slag

Hiërarchieën gebruiken voor categorische data

In deze oefening maak en gebruik je hiërarchieën om gegevensgeneralisatie toe te passen op de kolom bachelors van de US Adult Income-gegevensset.

Een begindictionary met de hiërarchieën is beschikbaar als hierarchies. Deze bevat drie categorieën voor onderwijstypen: Primary, Secondary en Higher; elk met een lijst van de bijbehorende onderwijswaarden uit de data. Verken dit gerust in de interactieve console.

We maken een nieuwe dictionary die de gegeneraliseerde onderwijscategorieën bevat en waarmee we de oorspronkelijke waarden vervangen.

De gegevensset is beschikbaar als income_df.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Oefeninstructies

  • Initialiseer education_hierarchy als een lege dictionary.
  • Maak de interne lus af zodat het onderwijstype key als waarde wordt toegekend. Bijvoorbeeld {'Some-college': 'Higher education'}.
  • Pas generalisatie met de onderwijs-hiërarchie toe op de kolom bachelors en sla het resultaat op in de nieuwe kolom bachelors_generalized.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Initialize dictionary for each education category value
education_hierarchy = ____

# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
    for education in education_values:
        education_hierarchy[education] = ____

# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____

# See resulting dataset
print(income_df.head())
Code bewerken en uitvoeren