LoslegenKostenlos loslegen

Identifizierungsrisiko mit Generalisierung senken

In dieser Übung wendest du Generalisierung auf den Datensatz IBM HR Analytics Employee Attrition & Performance an.

Genauer gesagt wandelst du die Variable monthly_income in eine binäre Spalte um. Als Schwellenwert für die Transformation nimmst du den aufgerundeten Mittelwert der Gehälter. Neue Werte sind 0 für alle, die kleiner oder gleich dem ganzzahligen Mittelwert sind, und 1 für alle, die größer sind.

Der Datensatz ist als pandas-DataFrame hr geladen.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Berechne den Mittelwert der Spalte monthly_income mit .mean() und runde ihn auf eine ganze Zahl. Speichere ihn als mean_income.
  • Wende eine lambda-Funktion auf hr['monthly_income'] an, um die Einkommen zu generalisieren: 0 für Werte, die kleiner oder gleich mean_income sind, und 1 für Werte, die größer sind.
  • Untersuche die ersten fünf Zeilen des resultierenden DataFrames hr.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Code bearbeiten und ausführen