동일한 확률 분포에서 표본 추출하기

U.S. Census와 같은 많은 기관은 민간인에 대해 수집한 데이터의 표본을 공개합니다. 이 데이터셋은 먼저 다양한 기법으로 익명화한 뒤, 계산이 가능하도록 1%에서 5%의 아주 작은 비율만 공개합니다. 표본 추출은 데이터의 통계적 특성을 보존하는 것으로 알려져 있어, 사람들이 모집단을 연구하고 이해하는 데 도움을 줍니다.

이 연습 문제에서는 IBM HR 데이터셋의 department 열을 원본 데이터셋의 분포에서 표본을 추출하는 방식으로 익명화해 보겠습니다.

데이터셋은 hr로 로드되어 있습니다.