Hierarchien für kategoriale Daten verwenden
In dieser Übung erstellst und verwendest du Hierarchien, um eine Datengeneralisierung auf die Spalte bachelors des US Adult Income-Datensatzes anzuwenden.
Ein initiales Dictionary mit den Hierarchien steht dir als hierarchies zur Verfügung. Es enthält drei Kategorien für die Bildungsarten: Primary, Secondary und Higher; jede hat eine Liste der entsprechenden Bildungswerte aus den Daten. Du kannst es gerne in der interaktiven Konsole erkunden.
Wir erstellen ein neues Dictionary, das die generalisierten Bildungsinformationen enthält und zum Ersetzen der Originalwerte verwendet wird.
Der Datensatz ist als income_df verfügbar.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Anleitung zur Übung
- Initialisiere
education_hierarchyals leeres Dictionary. - Vervollständige die innere Schleife, um den Bildungstyp
keyals Wert zuzuweisen. Zum Beispiel{'Some-college': 'Higher education'}. - Wende die Generalisierung der Bildungshierarchie auf die Spalte
bachelorsan und weise das Ergebnis der neuen Spaltebachelors_generalizedzu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())