1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

백악관 급여의 상/하한 코딩 적용하기

상한 코딩과 하한 코딩은 이상치를 숨기고 식별 위험을 줄이면서도 데이터 활용성을 유지하는 데 도움이 됩니다.

이 연습 문제에서는 2019년과 2020년 미국 백악관 급여 데이터를 사용해 salary 열에 상/하한 코딩 기법을 적용해 보겠습니다.

먼저 급여 분포를 탐색해 값의 대부분이 분포의 중앙에 모여 있음을 확인하세요. 탐색 결과를 바탕으로 합리적인 상한과 하한 값을 선택합니다.

DataFrame은 wh2020으로 로드되어 있습니다.

지침 1/4

undefined XP
    1
    2
    3
    4
  • salary 열의 분포를 확인하기 위해 기본 bin 설정으로 히스토그램을 만드세요.