CommencerCommencez gratuitement

K-anonymisation d’un jeu de données

Dans cet exercice, vous allez anonymiser le jeu de données NBA Salaries. Rappelez-vous : vous devez préciser les types d’attributs pour appliquer la k-anonymité. Ils peuvent être identifiants, quasi-identifiants, sensibles ou non sensibles. Nous nous concentrerons sur age et nba_origin comme quasi-identifiants, et sur salary comme donnée sensible.

Explorez nba. Si vous connaissez des informations sur un joueur, par exemple qu’il/elle vient d’Espagne et a 23 ans, vous pourrez déduire une information sensible comme son salaire ! Ici, nous utiliserons une valeur de K égale à 3, garantissant que les attributs choisis ne peuvent pas être distingués d’au moins k-1 autres lignes.

Le dictionnaire de hiérarchie pour nba_Origin est déjà créé sous le nom origin_hierarchy.

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Print how many unique combinations are for age and nba_origin
print(____)
Modifier et exécuter le code