Conjuntos de datos con la misma distribución probabilística

El objetivo de los datos sintéticos es crear un conjunto de datos lo más realista posible sin poner en riesgo información personal sensible. Por ejemplo, un equipo de Deloitte Consulting generó el 80% de los datos de entrenamiento de un modelo de Machine Learning sintetizando datos. La exactitud del modelo resultante fue similar a la de un modelo entrenado con datos reales.

En este ejercicio, generarás desde cero un conjunto de datos sintético usando Faker que siga una distribución probabilística cargada como p.

El generador de Faker fake_data ya está inicializado y numpy está importado como np.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)

Editar y ejecutar código

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

AvanzadoNivel de habilidad

4.9+

Empieza el curso gratis

Prepárate para aplicar técnicas de anonimización como supresión de datos, enmascaramiento, generación de datos sintéticos y generalización. En este capítulo, aprenderás a distinguir entre información personal identificable (PII) sensible y no sensible, cuasiidentificadores y los conceptos básicos del RGPD. También verás ejemplos reales de lo que puede salir mal si no sigues estas buenas prácticas.

Exercise 1: ¿Qué es privado y por qué nos importa?Exercise 2: La privacidad es poder Exercise 3: ¿Es sensible o no sensible?Exercise 4: Supresión de atributos sensibles Exercise 5: Enmascaramiento de datos y generación de datos con Faker Exercise 6: Enmascarar PII sensible Exercise 7: Eliminar nombres con faker Exercise 8: Anonimización con generalización de datos Exercise 9: Reducir el riesgo de identificación con generalización Exercise 10: Agregación de datos y generalización de datos Exercise 11: Top and bottom coding en los salarios de la Casa Blanca

Descubre cómo anonimizar datos muestreando de conjuntos de datos según la distribución de probabilidad de las columnas. Después aprenderás a aplicar el modelo de privacidad k-anonymity para evitar ataques de vinculación o reidentificación y a usar jerarquías para realizar generalización de datos en variables categóricas.

Exercise 1: Anonimizar datos categóricos Exercise 2: Explora la distribución de los datos Exercise 3: Muestrear de la misma distribución de probabilidad Exercise 4: Anonimizar datos continuos Exercise 5: Distribuciones diferentes Exercise 6: Muestreo a partir de la mejor distribución continua Exercise 7: Introducción a la k-anonimidad Exercise 8: Atributos de privacidad Exercise 9: Generalización en intervalos Exercise 10: Generalización de datos con jerarquías Exercise 11: Uso de jerarquías para datos categóricos Exercise 12: Aplicar k-anonimato a un conjunto de datos

Conoce la privacidad diferencial, el modelo utilizado por grandes tecnológicas como Apple, Google y Uber. En este capítulo, explorarás datos generando histogramas privados y calculando medias privadas. También crearás modelos de Machine Learning con privacidad diferencial que permiten a las empresas aumentar la utilidad de sus datos.

Exercise 1: Introducción a la privacidad diferencial Exercise 2: Épsilon (ϵ): el número mágico Exercise 3: Histogramas con privacidad diferencial Exercise 4: Presupuestos de privacidad Exercise 5: Uso de presupuestos de privacidad Exercise 6: Cuando no queda presupuesto Exercise 7: Explorar datos con un gestor de presupuesto de privacidad Exercise 8: Modelos de Machine Learning con privacidad diferencial Exercise 9: Crea un clasificador con privacidad diferencial Exercise 10: Predecir salarios Exercise 11: Modelos de clustering con privacidad diferencial Exercise 12: Preprocesamiento de datos Exercise 13: Segmentación de clientes

En este capítulo final, aprenderás a aplicar métodos de reducción de dimensionalidad como el análisis de componentes principales (PCA) para anonimizar conjuntos de datos grandes con muchas columnas. Luego usarás Faker para generar conjuntos de datos realistas y coherentes, y scikit-learn para crear conjuntos de datos sintéticos que sigan una distribución normal. Por último, pondrás en práctica todo lo aprendido en el curso combinando múltiples técnicas para publicar conjuntos de datos de forma segura.

Exercise 1: PCA para anonimización Exercise 2: Anonimización de datos de alta dimensionalidad Exercise 3: Enmascaramiento de datos con PCA Exercise 4: Generar conjuntos de datos realistas con Faker Exercise 5: Conjunto de datos sintético coherente Exercise 6: Conjuntos de datos con la misma distribución probabilística

Ejercicio actual

Exercise 7: Creación de conjuntos de datos sintéticos con scikit-learn Exercise 8: Generar conjuntos de datos para clasificación Exercise 9: Generar conjuntos de datos para clustering Exercise 10: Publica conjuntos de datos de forma segura Exercise 11: Exploración y seudonimización de un conjunto de datos Exercise 12: Preparar datos de empleados para una publicación segura Exercise 13: ¡Buen trabajo!