Generalización en intervalos

K-anonymity puede ser un buen modelo de privacidad para conjuntos de datos específicos que no tienen muchas dimensiones. Las dos técnicas principales de anonimización usadas para transformar un conjunto de datos en una tabla k-anónima son la generalización y la supresión.

En este ejercicio, vas a transformar un conjunto de datos de puntuaciones de satisfacción en una tabla 3-anónima que contiene posibles atributos sensibles como satisfaction_rate y work_hours. Algunas combinaciones aparecen menos de tres veces. Corrige eso para que el DataFrame sea 3-anónimo.

El DataFrame está disponible como employees. También está disponible un valor de k igual a 3.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Calculate how many unique combinations are for BirthYear and Department
print(employees.groupby(['birth_year','department']).____)

Editar y ejecutar código

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

AvanzadoNivel de habilidad

4.9+

Empieza el curso gratis

Prepárate para aplicar técnicas de anonimización como supresión de datos, enmascaramiento, generación de datos sintéticos y generalización. En este capítulo, aprenderás a distinguir entre información personal identificable (PII) sensible y no sensible, cuasiidentificadores y los conceptos básicos del RGPD. También verás ejemplos reales de lo que puede salir mal si no sigues estas buenas prácticas.

Exercise 1: ¿Qué es privado y por qué nos importa?Exercise 2: La privacidad es poder Exercise 3: ¿Es sensible o no sensible?Exercise 4: Supresión de atributos sensibles Exercise 5: Enmascaramiento de datos y generación de datos con Faker Exercise 6: Enmascarar PII sensible Exercise 7: Eliminar nombres con faker Exercise 8: Anonimización con generalización de datos Exercise 9: Reducir el riesgo de identificación con generalización Exercise 10: Agregación de datos y generalización de datos Exercise 11: Top and bottom coding en los salarios de la Casa Blanca

Descubre cómo anonimizar datos muestreando de conjuntos de datos según la distribución de probabilidad de las columnas. Después aprenderás a aplicar el modelo de privacidad k-anonymity para evitar ataques de vinculación o reidentificación y a usar jerarquías para realizar generalización de datos en variables categóricas.

Exercise 1: Anonimizar datos categóricos Exercise 2: Explora la distribución de los datos Exercise 3: Muestrear de la misma distribución de probabilidad Exercise 4: Anonimizar datos continuos Exercise 5: Distribuciones diferentes Exercise 6: Muestreo a partir de la mejor distribución continua Exercise 7: Introducción a la k-anonimidad Exercise 8: Atributos de privacidad Exercise 9: Generalización en intervalos

Ejercicio actual

Exercise 10: Generalización de datos con jerarquías Exercise 11: Uso de jerarquías para datos categóricos Exercise 12: Aplicar k-anonimato a un conjunto de datos

Conoce la privacidad diferencial, el modelo utilizado por grandes tecnológicas como Apple, Google y Uber. En este capítulo, explorarás datos generando histogramas privados y calculando medias privadas. También crearás modelos de Machine Learning con privacidad diferencial que permiten a las empresas aumentar la utilidad de sus datos.

Exercise 1: Introducción a la privacidad diferencial Exercise 2: Épsilon (ϵ): el número mágico Exercise 3: Histogramas con privacidad diferencial Exercise 4: Presupuestos de privacidad Exercise 5: Uso de presupuestos de privacidad Exercise 6: Cuando no queda presupuesto Exercise 7: Explorar datos con un gestor de presupuesto de privacidad Exercise 8: Modelos de Machine Learning con privacidad diferencial Exercise 9: Crea un clasificador con privacidad diferencial Exercise 10: Predecir salarios Exercise 11: Modelos de clustering con privacidad diferencial Exercise 12: Preprocesamiento de datos Exercise 13: Segmentación de clientes

En este capítulo final, aprenderás a aplicar métodos de reducción de dimensionalidad como el análisis de componentes principales (PCA) para anonimizar conjuntos de datos grandes con muchas columnas. Luego usarás Faker para generar conjuntos de datos realistas y coherentes, y scikit-learn para crear conjuntos de datos sintéticos que sigan una distribución normal. Por último, pondrás en práctica todo lo aprendido en el curso combinando múltiples técnicas para publicar conjuntos de datos de forma segura.

Exercise 1: PCA para anonimización Exercise 2: Anonimización de datos de alta dimensionalidad Exercise 3: Enmascaramiento de datos con PCA Exercise 4: Generar conjuntos de datos realistas con Faker Exercise 5: Conjunto de datos sintético coherente Exercise 6: Conjuntos de datos con la misma distribución probabilística Exercise 7: Creación de conjuntos de datos sintéticos con scikit-learn Exercise 8: Generar conjuntos de datos para clasificación Exercise 9: Generar conjuntos de datos para clustering Exercise 10: Publica conjuntos de datos de forma segura Exercise 11: Exploración y seudonimización de un conjunto de datos Exercise 12: Preparar datos de empleados para una publicación segura Exercise 13: ¡Buen trabajo!