1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Anonymizace datasetu pomocí k-anonymity

V tomto cvičení anonymizuješ dataset NBA Salaries. Nezapomeň, že k aplikaci k-anonymity musíš určit typy atributů – ty mohou být identifikující, kvazi-identifikující, citlivé nebo necitlivé. Zaměříme se na age a nba_origin jako kvazi-identifikující atributy a na salary jako citlivý atribut.

Prozkoumat nba. Pokud znáš informace o konkrétním hráči – například že pochází ze Španělska a je mu 23 let – snadno se dostaneš k citlivým údajům, jako je jeho plat. Použijeme hodnotu K = 3, která zajistí, že zvolené atributy nelze odlišit od alespoň k-1 dalších řádků.

Slovník hierarchií pro nba_Origin je již připravený jako origin_hierarchy.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Vypiš počet unikátních kombinací pro age a nba_origin v datasetu – seskup hodnoty podle těchto sloupců a nový sloupec pojmenuj count.