Anonimizacja zbioru danych metodą k-anonimowości

W tym ćwiczeniu zanonimizujesz zbiór danych NBA Salaries. Pamiętaj, że aby zastosować k-anonimowość, musisz określić typy atrybutów. Mogą to być atrybuty identyfikujące, quasi-identyfikujące, wrażliwe lub niewrażliwe. Skupimy się na age i nba_origin jako quasi-identyfikatorach oraz na salary jako danych wrażliwych.

Przeanalizuj zbiór nba. Jeśli znasz informacje o zawodniku – na przykład, że pochodzi z Hiszpanii i ma 23 lata – możesz poznać wrażliwe dane, takie jak jego zarobki! Zastosujemy wartość K równą 3, co gwarantuje, że wybrane atrybuty nie będą rozróżnialne od co najmniej k-1 innych wierszy.

Słownik hierarchii dla nba_Origin jest już utworzony jako origin_hierarchy.

Wyświetl, ile unikalnych kombinacji wartości age i nba_origin znajduje się w zbiorze danych, grupując po tych kolumnach i nadając nowej kolumnie nazwę count.

ćwiczenie

Anonimizacja zbioru danych metodą k-anonimowości

Instrukcje 1/4

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/4

ćwiczenie