Aan de slagGa gratis aan de slag

K-anonimiseren van een gegevensset

In deze oefening ga je de NBA Salaries-gegevensset anonimiseren. Vergeet niet dat je attribuuttypen moet opgeven om k-anonimiteit toe te passen. Deze kunnen identificerend, quasi-identificerend, gevoelig of niet-gevoelig zijn. We focussen op age en nba_origin als quasi-identificerend en op salary als gevoelige data.

Verken nba. Als je iets over een speler weet, zoals dat hij/zij uit Spanje komt en 23 is, dan kun je gevoelige informatie zoals zijn/haar salaris achterhalen! Hier gebruiken we een K-waarde van 3, zodat de gekozen attributen niet te onderscheiden zijn van minimaal k-1 andere rijen.

De hiërarchiewoordenlijst voor nba_Origin is al aangemaakt als origin_hierarchy.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print how many unique combinations are for age and nba_origin
print(____)
Code bewerken en uitvoeren