Aan de slagBegin gratis

K-anonimiseren van een gegevensset

In deze oefening ga je de NBA Salaries-gegevensset anonimiseren. Vergeet niet dat je attribuuttypen moet opgeven om k-anonimiteit toe te passen. Deze kunnen identificerend, quasi-identificerend, gevoelig of niet-gevoelig zijn. We focussen op age en nba_origin als quasi-identificerend en op salary als gevoelige data.

Verken nba. Als je iets over een speler weet, zoals dat hij/zij uit Spanje komt en 23 is, dan kun je gevoelige informatie zoals zijn/haar salaris achterhalen! Hier gebruiken we een K-waarde van 3, zodat de gekozen attributen niet te onderscheiden zijn van minimaal k-1 andere rijen.

De hiërarchiewoordenlijst voor nba_Origin is al aangemaakt als origin_hierarchy.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print how many unique combinations are for age and nba_origin
print(____)
Code bewerken en uitvoeren