Identificatierisico verminderen met generalisatie
In deze oefening pas je generalisatie toe op de IBM HR Analytics Employee Attrition & Performance-gegevensset.
Specifieker ga je de variabele monthly_income omzetten naar een binaire kolom. De drempel voor deze transformatie is de naar boven afgeronde gemiddelde waarde van de salarissen. Nieuwe waarden worden 0 voor bedragen die kleiner dan of gelijk aan het gehele gemiddelde zijn, en 1 voor bedragen die groter zijn.
De gegevensset is ingeladen als een pandas DataFrame hr.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Oefeninstructies
- Bereken de gemiddelde waarde van de kolom
monthly_incomemet.mean()en rond deze af naar een geheel getal. Sla dit op alsmean_income. - Pas een
lambda-functie toe ophr['monthly_income']om de inkomens te generaliseren naar 0 voor waarden die kleiner dan of gelijk aanmean_incomezijn, en 1 voor waarden die groter zijn. - Bekijk de eerste vijf rijen van de resulterende DataFrame
hr.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)