K-anonimiseren van een gegevensset
In deze oefening ga je de NBA Salaries-gegevensset anonimiseren. Vergeet niet dat je attribuuttypen moet opgeven om k-anonimiteit toe te passen. Deze kunnen identificerend, quasi-identificerend, gevoelig of niet-gevoelig zijn. We focussen op age en nba_origin als quasi-identificerend en op salary als gevoelige data.
Verken nba. Als je iets over een speler weet, zoals dat hij/zij uit Spanje komt en 23 is, dan kun je gevoelige informatie zoals zijn/haar salaris achterhalen! Hier gebruiken we een K-waarde van 3, zodat de gekozen attributen niet te onderscheiden zijn van minimaal k-1 andere rijen.
De hiërarchiewoordenlijst voor nba_Origin is al aangemaakt als origin_hierarchy.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print how many unique combinations are for age and nba_origin
print(____)