1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

범주형 데이터에 계층 적용하기

이번 연습 문제에서는 US Adult Income 데이터셋의 bachelors 열에 데이터 일반화를 적용하기 위해 계층을 만들고 사용해 보겠습니다.

계층을 담은 초기 딕셔너리 hierarchies가 제공됩니다. 여기에는 교육 유형을 Primary, Secondary, Higher의 세 가지 범주로 묶었고, 각 범주에는 해당하는 교육 값 목록이 들어 있습니다. 대화형 콘솔에서 자유롭게 살펴보세요.

원래 값을 대체하기 위해 일반화된 교육 정보를 담을 새 딕셔너리를 만들겠습니다.

데이터셋은 income_df로 제공됩니다.

지침

100 XP
  • education_hierarchy를 빈 딕셔너리로 초기화하세요.
  • 내부 루프를 완성하여 교육 유형 key를 값으로 할당하세요. 예: {'Some-college': 'Higher education'}.
  • bachelors 열에 교육 계층 일반화를 적용하고, 결과를 새 열 bachelors_generalized에 할당하세요.