데이터 분포 살펴보기

매우 현실적인 방식으로 샘플링해 데이터셋을 익명화하려면, 해당 데이터에 대한 도메인 지식과 통계 지식을 갖추어야 합니다. 앞에서 본 것처럼, 관심 있는 열의 확률분포를 파악하는 것이 핵심이에요.

이번 연습에서는 IBM HR 데이터셋의 단순화된 버전에서 business_travel 열을 살펴보겠습니다.

DataFrame은 hr로, numpy는 np로 임포트되어 있어요. 이전 챕터에서 언급했듯이, 이번 강의 전체에서 pandas는 pd로 임포트되어 있습니다.