1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

데이터 분포 살펴보기

매우 현실적인 방식으로 샘플링해 데이터셋을 익명화하려면, 해당 데이터에 대한 도메인 지식과 통계 지식을 갖추어야 합니다. 앞에서 본 것처럼, 관심 있는 열의 확률분포를 파악하는 것이 핵심이에요.

이번 연습에서는 IBM HR 데이터셋의 단순화된 버전에서 business_travel 열을 살펴보겠습니다.

DataFrame은 hr로, numpy는 np로 임포트되어 있어요. 이전 챕터에서 언급했듯이, 이번 강의 전체에서 pandas는 pd로 임포트되어 있습니다.

지침 1/3

undefined XP
  • 1
    • business_travel 열에서 각 고유 값의 절대도수를 출력하세요.
  • 2
    • business_travel 변수의 확률분포(즉, 각 범주의 상대도수)를 출력하세요.
  • 3
    • .value_counts() 결과를 사용해 business_travel의 각 범주 절대도수를 시각화하는 막대 그래프를 생성하세요.