CommencerCommencer gratuitement

K-anonymisation d’un jeu de données

Dans cet exercice, vous allez anonymiser le jeu de données NBA Salaries. Rappelez-vous : vous devez préciser les types d’attributs pour appliquer la k-anonymité. Ils peuvent être identifiants, quasi-identifiants, sensibles ou non sensibles. Nous nous concentrerons sur age et nba_origin comme quasi-identifiants, et sur salary comme donnée sensible.

Explorez nba. Si vous connaissez des informations sur un joueur, par exemple qu’il/elle vient d’Espagne et a 23 ans, vous pourrez déduire une information sensible comme son salaire ! Ici, nous utiliserons une valeur de K égale à 3, garantissant que les attributs choisis ne peuvent pas être distingués d’au moins k-1 autres lignes.

Le dictionnaire de hiérarchie pour nba_Origin est déjà créé sous le nom origin_hierarchy.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print how many unique combinations are for age and nba_origin
print(____)
Modifier et exécuter le code