1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

데이터 안전 공개를 위한 직원 데이터 준비

실제 데이터를 다룰 때는 고객이나 다른 사람의 개인 정보가 추적되거나 노출되지 않도록 반드시 주의해야 합니다. 이 연습 문제에서는 IBM HR Analytics Employee 데이터셋의 단순화된 버전을 사용해 억제(suppression)와 일반화(generalization) 기법을 연습해 보겠습니다.

데이터셋에 대한 정보를 유출하지 않기 위해 열 이름을 숫자로 바꿉니다.

DataFrame은 hr로 로드되어 있으니 콘솔에서 탐색해 보세요. numpy는 np로 임포트되어 있습니다.

지침 1/3

undefined XP
    1
    2
    3
  • hr에서 고유값을 제거하세요.
  • df_dropped에서 NaN 값을 제거해 df_cleaned를 얻으세요.