1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

동일한 확률 분포에서 표본 추출하기

U.S. Census와 같은 많은 기관은 민간인에 대해 수집한 데이터의 표본을 공개합니다. 이 데이터셋은 먼저 다양한 기법으로 익명화한 뒤, 계산이 가능하도록 1%에서 5%의 아주 작은 비율만 공개합니다. 표본 추출은 데이터의 통계적 특성을 보존하는 것으로 알려져 있어, 사람들이 모집단을 연구하고 이해하는 데 도움을 줍니다.

이 연습 문제에서는 IBM HR 데이터셋의 department 열을 원본 데이터셋의 분포에서 표본을 추출하는 방식으로 익명화해 보겠습니다.

데이터셋은 hr로 로드되어 있습니다.

지침

100 XP
  • department 열에서 고유 값별 상대도수를 구하세요.
  • counts에서 확률만 추출해 distributions라는 변수에 저장하세요.
  • 앞에서 계산한 확률 분포에서 표본을 추출하세요. 표본 크기는 hr 데이터셋의 크기와 같아야 합니다.