Crea un clasificador con privacidad diferencial

En este ejercicio, vas a crear y entrenar un modelo privado de Gaussian Naive Bayes con el conjunto de datos de pingüinos para clasificar si un pingüino es macho o hembra.

K-anonymity no funciona bien con conjuntos de datos de alta dimensión o muy diversos debido a sus importantes limitaciones teóricas y empíricas, la “maldición de la dimensionalidad”. A medida que crece el número de características o dimensiones, la cantidad de datos necesaria para generalizar correctamente crece de forma exponencial. Es una de las razones por las que la privacidad diferencial es el modelo de privacidad preferido actualmente. Épsilon es independiente de cualquier conocimiento previo y “acota” la información sensible.

El DataFrame está cargado como penguin_df y dividido en X_train, y_train, X_test y y_test. La clase del modelo privado se ha importado como dp_GaussianNB.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Instrucciones del ejercicio

Crea un clasificador dp_GaussianNB sin parámetros.
Ajusta el modelo que has creado a los datos sin ningún parámetro.
Calcula la puntuación del modelo privado usando los datos de prueba.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))

Editar y ejecutar código

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

AvanzadoNivel de habilidad

4.9+

Empieza el curso gratis

Prepárate para aplicar técnicas de anonimización como supresión de datos, enmascaramiento, generación de datos sintéticos y generalización. En este capítulo, aprenderás a distinguir entre información personal identificable (PII) sensible y no sensible, cuasiidentificadores y los conceptos básicos del RGPD. También verás ejemplos reales de lo que puede salir mal si no sigues estas buenas prácticas.

Exercise 1: ¿Qué es privado y por qué nos importa?Exercise 2: La privacidad es poder Exercise 3: ¿Es sensible o no sensible?Exercise 4: Supresión de atributos sensibles Exercise 5: Enmascaramiento de datos y generación de datos con Faker Exercise 6: Enmascarar PII sensible Exercise 7: Eliminar nombres con faker Exercise 8: Anonimización con generalización de datos Exercise 9: Reducir el riesgo de identificación con generalización Exercise 10: Agregación de datos y generalización de datos Exercise 11: Top and bottom coding en los salarios de la Casa Blanca

Descubre cómo anonimizar datos muestreando de conjuntos de datos según la distribución de probabilidad de las columnas. Después aprenderás a aplicar el modelo de privacidad k-anonymity para evitar ataques de vinculación o reidentificación y a usar jerarquías para realizar generalización de datos en variables categóricas.

Exercise 1: Anonimizar datos categóricos Exercise 2: Explora la distribución de los datos Exercise 3: Muestrear de la misma distribución de probabilidad Exercise 4: Anonimizar datos continuos Exercise 5: Distribuciones diferentes Exercise 6: Muestreo a partir de la mejor distribución continua Exercise 7: Introducción a la k-anonimidad Exercise 8: Atributos de privacidad Exercise 9: Generalización en intervalos Exercise 10: Generalización de datos con jerarquías Exercise 11: Uso de jerarquías para datos categóricos Exercise 12: Aplicar k-anonimato a un conjunto de datos

Conoce la privacidad diferencial, el modelo utilizado por grandes tecnológicas como Apple, Google y Uber. En este capítulo, explorarás datos generando histogramas privados y calculando medias privadas. También crearás modelos de Machine Learning con privacidad diferencial que permiten a las empresas aumentar la utilidad de sus datos.

Exercise 1: Introducción a la privacidad diferencial Exercise 2: Épsilon (ϵ): el número mágico Exercise 3: Histogramas con privacidad diferencial Exercise 4: Presupuestos de privacidad Exercise 5: Uso de presupuestos de privacidad Exercise 6: Cuando no queda presupuesto Exercise 7: Explorar datos con un gestor de presupuesto de privacidad Exercise 8: Modelos de Machine Learning con privacidad diferencial Exercise 9: Crea un clasificador con privacidad diferencial

Ejercicio actual

Exercise 10: Predecir salarios Exercise 11: Modelos de clustering con privacidad diferencial Exercise 12: Preprocesamiento de datos Exercise 13: Segmentación de clientes

En este capítulo final, aprenderás a aplicar métodos de reducción de dimensionalidad como el análisis de componentes principales (PCA) para anonimizar conjuntos de datos grandes con muchas columnas. Luego usarás Faker para generar conjuntos de datos realistas y coherentes, y scikit-learn para crear conjuntos de datos sintéticos que sigan una distribución normal. Por último, pondrás en práctica todo lo aprendido en el curso combinando múltiples técnicas para publicar conjuntos de datos de forma segura.

Exercise 1: PCA para anonimización Exercise 2: Anonimización de datos de alta dimensionalidad Exercise 3: Enmascaramiento de datos con PCA Exercise 4: Generar conjuntos de datos realistas con Faker Exercise 5: Conjunto de datos sintético coherente Exercise 6: Conjuntos de datos con la misma distribución probabilística Exercise 7: Creación de conjuntos de datos sintéticos con scikit-learn Exercise 8: Generar conjuntos de datos para clasificación Exercise 9: Generar conjuntos de datos para clustering Exercise 10: Publica conjuntos de datos de forma segura Exercise 11: Exploración y seudonimización de un conjunto de datos Exercise 12: Preparar datos de empleados para una publicación segura Exercise 13: ¡Buen trabajo!