Ridurre il rischio di identificazione con la generalizzazione
In questo esercizio applicherai la generalizzazione al dataset IBM HR Analytics Employee Attrition & Performance.
In particolare, trasformerai la variabile monthly_income in una colonna binaria. La soglia da usare per la trasformazione sarà il valore medio degli stipendi arrotondato. I nuovi valori saranno 0 per quelli minori o uguali alla media intera e 1 per quelli maggiori.
Il dataset è caricato come pandas DataFrame hr.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Calcola il valore medio della colonna
monthly_incomeusando.mean()e arrotondalo a un intero. Salvalo comemean_income. - Applica una funzione
lambdaahr['monthly_income']per generalizzare i redditi a 0 per i valori minori o uguali amean_incomee a 1 per quelli maggiori. - Esplora le prime cinque righe del DataFrame risultante
hr.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)