IniziaInizia gratis

Ridurre il rischio di identificazione con la generalizzazione

In questo esercizio applicherai la generalizzazione al dataset IBM HR Analytics Employee Attrition & Performance.

In particolare, trasformerai la variabile monthly_income in una colonna binaria. La soglia da usare per la trasformazione sarà il valore medio degli stipendi arrotondato. I nuovi valori saranno 0 per quelli minori o uguali alla media intera e 1 per quelli maggiori.

Il dataset è caricato come pandas DataFrame hr.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola il valore medio della colonna monthly_income usando .mean() e arrotondalo a un intero. Salvalo come mean_income.
  • Applica una funzione lambda a hr['monthly_income'] per generalizzare i redditi a 0 per i valori minori o uguali a mean_income e a 1 per quelli maggiori.
  • Esplora le prime cinque righe del DataFrame risultante hr.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Modifica ed esegui il codice