LoslegenKostenlos loslegen

Hierarchien für kategoriale Daten verwenden

In dieser Übung erstellst und verwendest du Hierarchien, um eine Datengeneralisierung auf die Spalte bachelors des US Adult Income-Datensatzes anzuwenden.

Ein initiales Dictionary mit den Hierarchien steht dir als hierarchies zur Verfügung. Es enthält drei Kategorien für die Bildungsarten: Primary, Secondary und Higher; jede hat eine Liste der entsprechenden Bildungswerte aus den Daten. Du kannst es gerne in der interaktiven Konsole erkunden.

Wir erstellen ein neues Dictionary, das die generalisierten Bildungsinformationen enthält und zum Ersetzen der Originalwerte verwendet wird.

Der Datensatz ist als income_df verfügbar.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Initialisiere education_hierarchy als leeres Dictionary.
  • Vervollständige die innere Schleife, um den Bildungstyp key als Wert zuzuweisen. Zum Beispiel {'Some-college': 'Higher education'}.
  • Wende die Generalisierung der Bildungshierarchie auf die Spalte bachelors an und weise das Ergebnis der neuen Spalte bachelors_generalized zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Initialize dictionary for each education category value
education_hierarchy = ____

# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
    for education in education_values:
        education_hierarchy[education] = ____

# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____

# See resulting dataset
print(income_df.head())
Code bearbeiten und ausführen