데이터셋 K-익명화하기

이 연습 문제에서는 NBA Salaries 데이터셋을 익명화해 보겠습니다. k-익명성을 적용하려면 속성 유형을 지정해야 합니다. 식별(identifying), 준식별(quasi-identifying), 민감(sensitive), 비민감(insensitive)으로 구분할 수 있어요. 여기서는 age와 nba_origin을 준식별자로, salary를 민감 데이터로 설정합니다.

nba를 살펴보세요. 어떤 선수가 스페인 출신이고 23세라는 정보를 알고 있다면, 그 선수의 급여 같은 민감 정보를 유추할 수 있습니다! 여기서는 K 값을 3으로 설정해, 선택한 속성이 최소 k-1개의 다른 행과 구분되지 않도록 보장합니다.

nba_Origin에 대한 계층 사전은 이미 origin_hierarchy로 만들어 두었습니다.