K-anonymisation d’un jeu de données

Dans cet exercice, vous allez anonymiser le jeu de données NBA Salaries. Rappelez-vous : vous devez préciser les types d’attributs pour appliquer la k-anonymité. Ils peuvent être identifiants, quasi-identifiants, sensibles ou non sensibles. Nous nous concentrerons sur age et nba_origin comme quasi-identifiants, et sur salary comme donnée sensible.

Explorez nba. Si vous connaissez des informations sur un joueur, par exemple qu’il/elle vient d’Espagne et a 23 ans, vous pourrez déduire une information sensible comme son salaire ! Ici, nous utiliserons une valeur de K égale à 3, garantissant que les attributs choisis ne peuvent pas être distingués d’au moins k-1 autres lignes.

Le dictionnaire de hiérarchie pour nba_Origin est déjà créé sous le nom origin_hierarchy.

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Print how many unique combinations are for age and nba_origin
print(____)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

Préparez-vous à appliquer des techniques d’anonymisation comme la suppression de données, le masquage, la génération de données synthétiques et la généralisation. Dans ce chapitre, vous apprendrez à distinguer les informations personnellement identifiables (PII) sensibles et non sensibles, les quasi-identifiants, ainsi que les bases du RGPD. Vous verrez aussi des exemples concrets de ce qui peut mal tourner si ces bonnes pratiques ne sont pas respectées.

Exercise 1: Qu’est-ce qui est privé, et pourquoi est-ce important ?Exercise 2: La vie privée, c’est le pouvoir Exercise 3: Est-ce sensible ou non sensible ?Exercise 4: Suppression d’attributs sensibles Exercise 5: Masquage des données et génération de données avec Faker Exercise 6: Masquage des PII sensibles Exercise 7: Supprimer les noms avec faker Exercise 8: Anonymiser avec la généralisation des données Exercise 9: Réduire le risque de ré-identification grâce à la généralisation Exercise 10: Agrégation de données et généralisation de données Exercise 11: Top- et bottom-coding des salaires de la Maison-Blanche

Découvrez comment anonymiser des données en échantillonnant des jeux de données selon la distribution de probabilité des colonnes. Vous apprendrez ensuite à appliquer le modèle de confidentialité k-anonymat pour prévenir les attaques de recoupement ou de réidentification, et à utiliser des hiérarchies pour généraliser des variables catégorielles.

Exercise 1: Anonymiser des données catégorielles Exercise 2: Explorer la distribution des données Exercise 3: Échantillonnage à partir de la même distribution de probabilité Exercise 4: Anonymiser des données continues Exercise 5: Différentes distributions Exercise 6: Échantillonner à partir de la meilleure distribution continue Exercise 7: Introduction à la k-anonymat Exercise 8: Attributs de confidentialité Exercise 9: Généraliser en intervalles Exercise 10: Généraliser les données à l’aide de hiérarchies Exercise 11: Utiliser des hiérarchies pour des données catégorielles Exercise 12: K-anonymisation d’un jeu de données

Exercice actuel

Découvrez la differential privacy, un modèle utilisé par de grandes entreprises technologiques comme Apple, Google et Uber. Dans ce chapitre, vous explorerez les données en générant des histogrammes privés et en calculant des moyennes privées. Vous créerez également des modèles de Machine Learning différentiellement privés qui permettent aux entreprises d’augmenter l’utilité de leurs données.

Exercise 1: Introduction à la confidentialité différentielle Exercise 2: Epsilon (ϵ) : le nombre magique Exercise 3: Histogrammes avec confidentialité différentielle Exercise 4: Budgets de confidentialité Exercise 5: Utiliser des budgets de confidentialité Exercise 6: Quand il n’y a plus de budget Exercise 7: Explorer des données avec un gestionnaire de budget de confidentialité Exercise 8: Modèles de Machine Learning avec confidentialité différentielle Exercise 9: Créer un classifieur avec confidentialité différentielle Exercise 10: Prédire les salaires Exercise 11: Modèles de clustering avec confidentialité différentielle Exercise 12: Prétraiter les données Exercise 13: Segmenter les clients

Dans ce dernier chapitre, vous apprendrez à appliquer des méthodes de réduction de dimensionnalité telles que l’analyse en composantes principales (PCA) pour anonymiser de grands jeux de données multicolonnes. Vous utiliserez ensuite Faker pour générer des jeux de données réalistes et cohérents, et scikit-learn pour créer des jeux de données synthétiques suivant une distribution normale. Enfin, vous rassemblerez tout ce que vous avez appris dans ce cours en combinant plusieurs techniques afin de publier des jeux de données en toute sécurité.

Exercise 1: ACP pour l’anonymisation Exercise 2: Anonymisation de données à haute dimension Exercise 3: Masquage de données avec la PCA Exercise 4: Générer des jeux de données réalistes avec Faker Exercise 5: Jeu de données synthétique cohérent Exercise 6: Jeux de données avec la même distribution probabiliste Exercise 7: Créer des jeux de données synthétiques avec scikit-learn Exercise 8: Générer des jeux de données pour la classification Exercise 9: Générer des jeux de données pour le clustering Exercise 10: Publier des jeux de données en toute sécurité Exercise 11: Explorer et pseudonymiser un jeu de données Exercise 12: Préparer les données des employés pour une publication sécurisée Exercise 13: Excellent travail !