Jeux de données avec la même distribution probabiliste

L’objectif des données synthétiques est de créer un jeu de données aussi réaliste que possible, sans mettre en danger des informations personnelles sensibles. Par exemple, une équipe de Deloitte Consulting a généré 80 % des données d’entraînement d’un modèle de Machine Learning en synthétisant les données. La précision obtenue était similaire à celle d’un modèle entraîné sur des données réelles.

Dans cet exercice, vous allez générer un jeu de données synthétiques à partir de zéro avec Faker, en suivant une distribution probabiliste chargée sous le nom p.

Le générateur Faker fake_data a déjà été initialisé et numpy est importé sous le nom np.

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

Préparez-vous à appliquer des techniques d’anonymisation comme la suppression de données, le masquage, la génération de données synthétiques et la généralisation. Dans ce chapitre, vous apprendrez à distinguer les informations personnellement identifiables (PII) sensibles et non sensibles, les quasi-identifiants, ainsi que les bases du RGPD. Vous verrez aussi des exemples concrets de ce qui peut mal tourner si ces bonnes pratiques ne sont pas respectées.

Exercise 1: Qu’est-ce qui est privé, et pourquoi est-ce important ?Exercise 2: La vie privée, c’est le pouvoir Exercise 3: Est-ce sensible ou non sensible ?Exercise 4: Suppression d’attributs sensibles Exercise 5: Masquage des données et génération de données avec Faker Exercise 6: Masquage des PII sensibles Exercise 7: Supprimer les noms avec faker Exercise 8: Anonymiser avec la généralisation des données Exercise 9: Réduire le risque de ré-identification grâce à la généralisation Exercise 10: Agrégation de données et généralisation de données Exercise 11: Top- et bottom-coding des salaires de la Maison-Blanche

Découvrez comment anonymiser des données en échantillonnant des jeux de données selon la distribution de probabilité des colonnes. Vous apprendrez ensuite à appliquer le modèle de confidentialité k-anonymat pour prévenir les attaques de recoupement ou de réidentification, et à utiliser des hiérarchies pour généraliser des variables catégorielles.

Exercise 1: Anonymiser des données catégorielles Exercise 2: Explorer la distribution des données Exercise 3: Échantillonnage à partir de la même distribution de probabilité Exercise 4: Anonymiser des données continues Exercise 5: Différentes distributions Exercise 6: Échantillonner à partir de la meilleure distribution continue Exercise 7: Introduction à la k-anonymat Exercise 8: Attributs de confidentialité Exercise 9: Généraliser en intervalles Exercise 10: Généraliser les données à l’aide de hiérarchies Exercise 11: Utiliser des hiérarchies pour des données catégorielles Exercise 12: K-anonymisation d’un jeu de données

Découvrez la differential privacy, un modèle utilisé par de grandes entreprises technologiques comme Apple, Google et Uber. Dans ce chapitre, vous explorerez les données en générant des histogrammes privés et en calculant des moyennes privées. Vous créerez également des modèles de Machine Learning différentiellement privés qui permettent aux entreprises d’augmenter l’utilité de leurs données.

Exercise 1: Introduction à la confidentialité différentielle Exercise 2: Epsilon (ϵ) : le nombre magique Exercise 3: Histogrammes avec confidentialité différentielle Exercise 4: Budgets de confidentialité Exercise 5: Utiliser des budgets de confidentialité Exercise 6: Quand il n’y a plus de budget Exercise 7: Explorer des données avec un gestionnaire de budget de confidentialité Exercise 8: Modèles de Machine Learning avec confidentialité différentielle Exercise 9: Créer un classifieur avec confidentialité différentielle Exercise 10: Prédire les salaires Exercise 11: Modèles de clustering avec confidentialité différentielle Exercise 12: Prétraiter les données Exercise 13: Segmenter les clients

Dans ce dernier chapitre, vous apprendrez à appliquer des méthodes de réduction de dimensionnalité telles que l’analyse en composantes principales (PCA) pour anonymiser de grands jeux de données multicolonnes. Vous utiliserez ensuite Faker pour générer des jeux de données réalistes et cohérents, et scikit-learn pour créer des jeux de données synthétiques suivant une distribution normale. Enfin, vous rassemblerez tout ce que vous avez appris dans ce cours en combinant plusieurs techniques afin de publier des jeux de données en toute sécurité.

Exercise 1: ACP pour l’anonymisation Exercise 2: Anonymisation de données à haute dimension Exercise 3: Masquage de données avec la PCA Exercise 4: Générer des jeux de données réalistes avec Faker Exercise 5: Jeu de données synthétique cohérent Exercise 6: Jeux de données avec la même distribution probabiliste

Exercice actuel

Exercise 7: Créer des jeux de données synthétiques avec scikit-learn Exercise 8: Générer des jeux de données pour la classification Exercise 9: Générer des jeux de données pour le clustering Exercise 10: Publier des jeux de données en toute sécurité Exercise 11: Explorer et pseudonymiser un jeu de données Exercise 12: Préparer les données des employés pour une publication sécurisée Exercise 13: Excellent travail !