1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

가장 적합한 연속형 분포에서 샘플링하기

적합도가 높은 확률분포에서 무작위 샘플링을 하면 프라이버시를 지키면서도, 승인된 사용자들이 데이터를 정확하게 통계 분석할 수 있습니다.

이 연습 문제에서는 IBM 데이터셋의 monthly_income 열을 익명화해 보겠습니다. 이전 레슨에서 연속형 분포인 exponnorm이 가장 잘 맞는 것으로 확인했죠. 이를 사용해 소득을 모델링하세요.

데이터셋은 hr로 제공됩니다.

지침

100 XP
  • scipy 패키지에서 stats 모듈을 임포트하세요.
  • 연속형 변수 monthly_income에 exponnorm 분포를 적합해 분포의 모수를 얻고, 이후 샘플을 생성하세요.
  • exponnorm 분포에서 샘플링하여 .rvs() 메서드로 monthly_income을 대체하세요. 크기(size)는 해당 열의 길이와 동일하게 지정하세요.
  • 급여는 가장 가까운 정수로 반올림하세요.