1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

Exercise

일반화를 통한 식별 위험 낮추기

이 연습 문제에서는 IBM HR Analytics Employee Attrition & Performance 데이터셋에 일반화를 적용해 보겠습니다.

구체적으로는 monthly_income 변수를 이진 열로 변환합니다. 변환에 사용할 임계값은 급여의 평균값을 반올림한 정수입니다. 새 값은 정수 평균 이하인 경우 0, 그보다 큰 경우 1이 됩니다.

데이터셋은 pandas DataFrame hr로 로드되어 있어요.

Instrukcje

100 XP
  • .mean()으로 monthly_income 열의 평균값을 계산하고 정수로 반올림하세요. mean_income으로 저장하세요.
  • hr['monthly_income']에 lambda 함수를 적용해, 값이 mean_income 이하이면 0, 그보다 크면 1이 되도록 일반화하세요.
  • 결과 DataFrame hr의 앞 다섯 행을 확인하세요.