Explorer la distribution des données

Lorsque vous souhaitez anonymiser un jeu de données en échantillonnant de manière très réaliste, il est nécessaire d’acquérir des connaissances métier et statistiques sur les données. Comme nous l’avons vu, identifier la loi de probabilité de la colonne qui nous intéresse est essentiel.

Dans cet exercice, vous allez explorer la colonne business_travel issue d’une version simplifiée du jeu de données RH d’IBM.

Le DataFrame a été importé sous le nom hr et numpy sous np. Comme indiqué dans le chapitre précédent, pandas a été importé sous pd pour cet exercice et pour la suite du cours.

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Print the absolute frequencies of each unique value
print(____)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

Préparez-vous à appliquer des techniques d’anonymisation comme la suppression de données, le masquage, la génération de données synthétiques et la généralisation. Dans ce chapitre, vous apprendrez à distinguer les informations personnellement identifiables (PII) sensibles et non sensibles, les quasi-identifiants, ainsi que les bases du RGPD. Vous verrez aussi des exemples concrets de ce qui peut mal tourner si ces bonnes pratiques ne sont pas respectées.

Exercise 1: Qu’est-ce qui est privé, et pourquoi est-ce important ?Exercise 2: La vie privée, c’est le pouvoir Exercise 3: Est-ce sensible ou non sensible ?Exercise 4: Suppression d’attributs sensibles Exercise 5: Masquage des données et génération de données avec Faker Exercise 6: Masquage des PII sensibles Exercise 7: Supprimer les noms avec faker Exercise 8: Anonymiser avec la généralisation des données Exercise 9: Réduire le risque de ré-identification grâce à la généralisation Exercise 10: Agrégation de données et généralisation de données Exercise 11: Top- et bottom-coding des salaires de la Maison-Blanche

Découvrez comment anonymiser des données en échantillonnant des jeux de données selon la distribution de probabilité des colonnes. Vous apprendrez ensuite à appliquer le modèle de confidentialité k-anonymat pour prévenir les attaques de recoupement ou de réidentification, et à utiliser des hiérarchies pour généraliser des variables catégorielles.

Exercise 1: Anonymiser des données catégorielles Exercise 2: Explorer la distribution des données

Exercice actuel

Exercise 3: Échantillonnage à partir de la même distribution de probabilité Exercise 4: Anonymiser des données continues Exercise 5: Différentes distributions Exercise 6: Échantillonner à partir de la meilleure distribution continue Exercise 7: Introduction à la k-anonymat Exercise 8: Attributs de confidentialité Exercise 9: Généraliser en intervalles Exercise 10: Généraliser les données à l’aide de hiérarchies Exercise 11: Utiliser des hiérarchies pour des données catégorielles Exercise 12: K-anonymisation d’un jeu de données

Découvrez la differential privacy, un modèle utilisé par de grandes entreprises technologiques comme Apple, Google et Uber. Dans ce chapitre, vous explorerez les données en générant des histogrammes privés et en calculant des moyennes privées. Vous créerez également des modèles de Machine Learning différentiellement privés qui permettent aux entreprises d’augmenter l’utilité de leurs données.

Exercise 1: Introduction à la confidentialité différentielle Exercise 2: Epsilon (ϵ) : le nombre magique Exercise 3: Histogrammes avec confidentialité différentielle Exercise 4: Budgets de confidentialité Exercise 5: Utiliser des budgets de confidentialité Exercise 6: Quand il n’y a plus de budget Exercise 7: Explorer des données avec un gestionnaire de budget de confidentialité Exercise 8: Modèles de Machine Learning avec confidentialité différentielle Exercise 9: Créer un classifieur avec confidentialité différentielle Exercise 10: Prédire les salaires Exercise 11: Modèles de clustering avec confidentialité différentielle Exercise 12: Prétraiter les données Exercise 13: Segmenter les clients

Dans ce dernier chapitre, vous apprendrez à appliquer des méthodes de réduction de dimensionnalité telles que l’analyse en composantes principales (PCA) pour anonymiser de grands jeux de données multicolonnes. Vous utiliserez ensuite Faker pour générer des jeux de données réalistes et cohérents, et scikit-learn pour créer des jeux de données synthétiques suivant une distribution normale. Enfin, vous rassemblerez tout ce que vous avez appris dans ce cours en combinant plusieurs techniques afin de publier des jeux de données en toute sécurité.

Exercise 1: ACP pour l’anonymisation Exercise 2: Anonymisation de données à haute dimension Exercise 3: Masquage de données avec la PCA Exercise 4: Générer des jeux de données réalistes avec Faker Exercise 5: Jeu de données synthétique cohérent Exercise 6: Jeux de données avec la même distribution probabiliste Exercise 7: Créer des jeux de données synthétiques avec scikit-learn Exercise 8: Générer des jeux de données pour la classification Exercise 9: Générer des jeux de données pour le clustering Exercise 10: Publier des jeux de données en toute sécurité Exercise 11: Explorer et pseudonymiser un jeu de données Exercise 12: Préparer les données des employés pour une publication sécurisée Exercise 13: Excellent travail !