Predecir salarios

En este ejercicio, usarás el conjunto de datos de ingresos del censo para predecir si las personas tienen un salario de más de 50.000 $/año o no.

Recuerda que debes especificar los límites como parámetro al crear el modelo privado para garantizar que no haya pérdida adicional de privacidad ni filtración de información. Normalmente, puedes elegir los límites de forma independiente de los datos, usando conocimiento del dominio o buscando con un histograma DP.

El conjunto de datos se ha cargado y dividido en X_train, y_train, X_test y y_test. El clasificador está disponible como dp_GaussianNB.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Instrucciones del ejercicio

Establece los límites del modelo calculando los valores min y max en los datos de entrenamiento y añadiendo ruido aleatorio restando y sumando números aleatorios en un rango de 5 a 40 para las 5 columnas de nuestros datos.
Crea un clasificador dp_GaussianNB con un epsilon de 0.5 y los límites creados previamente.
Ajusta el modelo a los datos y consulta la puntuación.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Set the min and max of bounds for the data and add noise using random
bounds = (X_train.____(axis=0) - random.____(range(5, 40), 5), 
          ____)

# Built the classifier with epsilon of 0.5
dp_clf = ____(epsilon=____, bounds=____)

# Fit the model to the data and print the score
____
print("The accuracy of the differentially private model is ",
       dp_clf.score(X_test, y_test))

Editar y ejecutar código

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

AvanzadoNivel de habilidad

4.9+

Empieza el curso gratis

Prepárate para aplicar técnicas de anonimización como supresión de datos, enmascaramiento, generación de datos sintéticos y generalización. En este capítulo, aprenderás a distinguir entre información personal identificable (PII) sensible y no sensible, cuasiidentificadores y los conceptos básicos del RGPD. También verás ejemplos reales de lo que puede salir mal si no sigues estas buenas prácticas.

Exercise 1: ¿Qué es privado y por qué nos importa?Exercise 2: La privacidad es poder Exercise 3: ¿Es sensible o no sensible?Exercise 4: Supresión de atributos sensibles Exercise 5: Enmascaramiento de datos y generación de datos con Faker Exercise 6: Enmascarar PII sensible Exercise 7: Eliminar nombres con faker Exercise 8: Anonimización con generalización de datos Exercise 9: Reducir el riesgo de identificación con generalización Exercise 10: Agregación de datos y generalización de datos Exercise 11: Top and bottom coding en los salarios de la Casa Blanca

Descubre cómo anonimizar datos muestreando de conjuntos de datos según la distribución de probabilidad de las columnas. Después aprenderás a aplicar el modelo de privacidad k-anonymity para evitar ataques de vinculación o reidentificación y a usar jerarquías para realizar generalización de datos en variables categóricas.

Exercise 1: Anonimizar datos categóricos Exercise 2: Explora la distribución de los datos Exercise 3: Muestrear de la misma distribución de probabilidad Exercise 4: Anonimizar datos continuos Exercise 5: Distribuciones diferentes Exercise 6: Muestreo a partir de la mejor distribución continua Exercise 7: Introducción a la k-anonimidad Exercise 8: Atributos de privacidad Exercise 9: Generalización en intervalos Exercise 10: Generalización de datos con jerarquías Exercise 11: Uso de jerarquías para datos categóricos Exercise 12: Aplicar k-anonimato a un conjunto de datos

Conoce la privacidad diferencial, el modelo utilizado por grandes tecnológicas como Apple, Google y Uber. En este capítulo, explorarás datos generando histogramas privados y calculando medias privadas. También crearás modelos de Machine Learning con privacidad diferencial que permiten a las empresas aumentar la utilidad de sus datos.

Exercise 1: Introducción a la privacidad diferencial Exercise 2: Épsilon (ϵ): el número mágico Exercise 3: Histogramas con privacidad diferencial Exercise 4: Presupuestos de privacidad Exercise 5: Uso de presupuestos de privacidad Exercise 6: Cuando no queda presupuesto Exercise 7: Explorar datos con un gestor de presupuesto de privacidad Exercise 8: Modelos de Machine Learning con privacidad diferencial Exercise 9: Crea un clasificador con privacidad diferencial Exercise 10: Predecir salarios

Ejercicio actual

Exercise 11: Modelos de clustering con privacidad diferencial Exercise 12: Preprocesamiento de datos Exercise 13: Segmentación de clientes

En este capítulo final, aprenderás a aplicar métodos de reducción de dimensionalidad como el análisis de componentes principales (PCA) para anonimizar conjuntos de datos grandes con muchas columnas. Luego usarás Faker para generar conjuntos de datos realistas y coherentes, y scikit-learn para crear conjuntos de datos sintéticos que sigan una distribución normal. Por último, pondrás en práctica todo lo aprendido en el curso combinando múltiples técnicas para publicar conjuntos de datos de forma segura.

Exercise 1: PCA para anonimización Exercise 2: Anonimización de datos de alta dimensionalidad Exercise 3: Enmascaramiento de datos con PCA Exercise 4: Generar conjuntos de datos realistas con Faker Exercise 5: Conjunto de datos sintético coherente Exercise 6: Conjuntos de datos con la misma distribución probabilística Exercise 7: Creación de conjuntos de datos sintéticos con scikit-learn Exercise 8: Generar conjuntos de datos para clasificación Exercise 9: Generar conjuntos de datos para clustering Exercise 10: Publica conjuntos de datos de forma segura Exercise 11: Exploración y seudonimización de un conjunto de datos Exercise 12: Preparar datos de empleados para una publicación segura Exercise 13: ¡Buen trabajo!