Reducir el riesgo de identificación con generalización

En este ejercicio, aplicarás generalización al conjunto de datos IBM HR Analytics Employee Attrition & Performance.

En concreto, transformarás la variable monthly_income en una columna binaria. El umbral para la transformación será el valor medio de los salarios redondeado hacia arriba. Los nuevos valores serán 0 para quienes estén por debajo o igual que la media entera, y 1 para quienes estén por encima.

El conjunto de datos está cargado como un DataFrame de pandas llamado hr.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Instrucciones del ejercicio

Calcula el valor medio de la columna monthly_income usando .mean() y redondéalo a un entero. Guárdalo como mean_income.
Aplica una función lambda a hr['monthly_income'] para generalizar los ingresos: que sea 0 para valores menores o iguales que mean_income, y 1 para los que sean mayores.
Explora las cinco primeras filas del DataFrame resultante hr.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)

Editar y ejecutar código

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

AvanzadoNivel de habilidad

4.9+

Comienza el curso gratis

Prepárate para aplicar técnicas de anonimización como supresión de datos, enmascaramiento, generación de datos sintéticos y generalización. En este capítulo, aprenderás a distinguir entre información personal identificable (PII) sensible y no sensible, cuasiidentificadores y los conceptos básicos del RGPD. También verás ejemplos reales de lo que puede salir mal si no sigues estas buenas prácticas.

Exercise 1: ¿Qué es privado y por qué nos importa?Exercise 2: La privacidad es poder Exercise 3: ¿Es sensible o no sensible?Exercise 4: Supresión de atributos sensibles Exercise 5: Enmascaramiento de datos y generación de datos con Faker Exercise 6: Enmascarar PII sensible Exercise 7: Eliminar nombres con faker Exercise 8: Anonimización con generalización de datos Exercise 9: Reducir el riesgo de identificación con generalización

Ejercicio actual

Exercise 10: Agregación de datos y generalización de datos Exercise 11: Top and bottom coding en los salarios de la Casa Blanca

Descubre cómo anonimizar datos muestreando de conjuntos de datos según la distribución de probabilidad de las columnas. Después aprenderás a aplicar el modelo de privacidad k-anonymity para evitar ataques de vinculación o reidentificación y a usar jerarquías para realizar generalización de datos en variables categóricas.

Exercise 1: Anonimizar datos categóricos Exercise 2: Explora la distribución de los datos Exercise 3: Muestrear de la misma distribución de probabilidad Exercise 4: Anonimizar datos continuos Exercise 5: Distribuciones diferentes Exercise 6: Muestreo a partir de la mejor distribución continua Exercise 7: Introducción a la k-anonimidad Exercise 8: Atributos de privacidad Exercise 9: Generalización en intervalos Exercise 10: Generalización de datos con jerarquías Exercise 11: Uso de jerarquías para datos categóricos Exercise 12: Aplicar k-anonimato a un conjunto de datos

Conoce la privacidad diferencial, el modelo utilizado por grandes tecnológicas como Apple, Google y Uber. En este capítulo, explorarás datos generando histogramas privados y calculando medias privadas. También crearás modelos de Machine Learning con privacidad diferencial que permiten a las empresas aumentar la utilidad de sus datos.

Exercise 1: Introducción a la privacidad diferencial Exercise 2: Épsilon (ϵ): el número mágico Exercise 3: Histogramas con privacidad diferencial Exercise 4: Presupuestos de privacidad Exercise 5: Uso de presupuestos de privacidad Exercise 6: Cuando no queda presupuesto Exercise 7: Explorar datos con un gestor de presupuesto de privacidad Exercise 8: Modelos de Machine Learning con privacidad diferencial Exercise 9: Crea un clasificador con privacidad diferencial Exercise 10: Predecir salarios Exercise 11: Modelos de clustering con privacidad diferencial Exercise 12: Preprocesamiento de datos Exercise 13: Segmentación de clientes

En este capítulo final, aprenderás a aplicar métodos de reducción de dimensionalidad como el análisis de componentes principales (PCA) para anonimizar conjuntos de datos grandes con muchas columnas. Luego usarás Faker para generar conjuntos de datos realistas y coherentes, y scikit-learn para crear conjuntos de datos sintéticos que sigan una distribución normal. Por último, pondrás en práctica todo lo aprendido en el curso combinando múltiples técnicas para publicar conjuntos de datos de forma segura.

Exercise 1: PCA para anonimización Exercise 2: Anonimización de datos de alta dimensionalidad Exercise 3: Enmascaramiento de datos con PCA Exercise 4: Generar conjuntos de datos realistas con Faker Exercise 5: Conjunto de datos sintético coherente Exercise 6: Conjuntos de datos con la misma distribución probabilística Exercise 7: Creación de conjuntos de datos sintéticos con scikit-learn Exercise 8: Generar conjuntos de datos para clasificación Exercise 9: Generar conjuntos de datos para clustering Exercise 10: Publica conjuntos de datos de forma segura Exercise 11: Exploración y seudonimización de un conjunto de datos Exercise 12: Preparar datos de empleados para una publicación segura Exercise 13: ¡Buen trabajo!