Reducir el riesgo de identificación con generalización
En este ejercicio, aplicarás generalización al conjunto de datos IBM HR Analytics Employee Attrition & Performance.
En concreto, transformarás la variable monthly_income en una columna binaria. El umbral para la transformación será el valor medio de los salarios redondeado hacia arriba. Los nuevos valores serán 0 para quienes estén por debajo o igual que la media entera, y 1 para quienes estén por encima.
El conjunto de datos está cargado como un DataFrame de pandas llamado hr.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Instrucciones del ejercicio
- Calcula el valor medio de la columna
monthly_incomeusando.mean()y redondéalo a un entero. Guárdalo comomean_income. - Aplica una función
lambdaahr['monthly_income']para generalizar los ingresos: que sea 0 para valores menores o iguales quemean_income, y 1 para los que sean mayores. - Explora las cinco primeras filas del
DataFrameresultantehr.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)