Aan de slagGa gratis aan de slag

Identificatierisico verminderen met generalisatie

In deze oefening pas je generalisatie toe op de IBM HR Analytics Employee Attrition & Performance-gegevensset.

Specifieker ga je de variabele monthly_income omzetten naar een binaire kolom. De drempel voor deze transformatie is de naar boven afgeronde gemiddelde waarde van de salarissen. Nieuwe waarden worden 0 voor bedragen die kleiner dan of gelijk aan het gehele gemiddelde zijn, en 1 voor bedragen die groter zijn.

De gegevensset is ingeladen als een pandas DataFrame hr.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Oefeninstructies

  • Bereken de gemiddelde waarde van de kolom monthly_income met .mean() en rond deze af naar een geheel getal. Sla dit op als mean_income.
  • Pas een lambda-functie toe op hr['monthly_income'] om de inkomens te generaliseren naar 0 voor waarden die kleiner dan of gelijk aan mean_income zijn, en 1 voor waarden die groter zijn.
  • Bekijk de eerste vijf rijen van de resulterende DataFrame hr.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Code bewerken en uitvoeren