Identifizierungsrisiko mit Generalisierung senken
In dieser Übung wendest du Generalisierung auf den Datensatz IBM HR Analytics Employee Attrition & Performance an.
Genauer gesagt wandelst du die Variable monthly_income in eine binäre Spalte um. Als Schwellenwert für die Transformation nimmst du den aufgerundeten Mittelwert der Gehälter. Neue Werte sind 0 für alle, die kleiner oder gleich dem ganzzahligen Mittelwert sind, und 1 für alle, die größer sind.
Der Datensatz ist als pandas-DataFrame hr geladen.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Anleitung zur Übung
- Berechne den Mittelwert der Spalte
monthly_incomemit.mean()und runde ihn auf eine ganze Zahl. Speichere ihn alsmean_income. - Wende eine
lambda-Funktion aufhr['monthly_income']an, um die Einkommen zu generalisieren: 0 für Werte, die kleiner oder gleichmean_incomesind, und 1 für Werte, die größer sind. - Untersuche die ersten fünf Zeilen des resultierenden DataFrames
hr.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)