ComenzarEmpieza gratis

Reducir el riesgo de identificación con generalización

En este ejercicio, aplicarás generalización al conjunto de datos IBM HR Analytics Employee Attrition & Performance.

En concreto, transformarás la variable monthly_income en una columna binaria. El umbral para la transformación será el valor medio de los salarios redondeado hacia arriba. Los nuevos valores serán 0 para quienes estén por debajo o igual que la media entera, y 1 para quienes estén por encima.

El conjunto de datos está cargado como un DataFrame de pandas llamado hr.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Ver curso

Instrucciones del ejercicio

  • Calcula el valor medio de la columna monthly_income usando .mean() y redondéalo a un entero. Guárdalo como mean_income.
  • Aplica una función lambda a hr['monthly_income'] para generalizar los ingresos: que sea 0 para valores menores o iguales que mean_income, y 1 para los que sean mayores.
  • Explora las cinco primeras filas del DataFrame resultante hr.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Editar y ejecutar código