1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Anonimizacja zbioru danych metodą k-anonimowości

W tym ćwiczeniu zanonimizujesz zbiór danych NBA Salaries. Pamiętaj, że aby zastosować k-anonimowość, musisz określić typy atrybutów. Mogą to być atrybuty identyfikujące, quasi-identyfikujące, wrażliwe lub niewrażliwe. Skupimy się na age i nba_origin jako quasi-identyfikatorach oraz na salary jako danych wrażliwych.

Przeanalizuj zbiór nba. Jeśli znasz informacje o zawodniku – na przykład, że pochodzi z Hiszpanii i ma 23 lata – możesz poznać wrażliwe dane, takie jak jego zarobki! Zastosujemy wartość K równą 3, co gwarantuje, że wybrane atrybuty nie będą rozróżnialne od co najmniej k-1 innych wierszy.

Słownik hierarchii dla nba_Origin jest już utworzony jako origin_hierarchy.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Wyświetl, ile unikalnych kombinacji wartości age i nba_origin znajduje się w zbiorze danych, grupując po tych kolumnach i nadając nowej kolumnie nazwę count.