1. Learn
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

Exercise

연봉 예측

이 연습에서는 census income 데이터셋을 사용해 개인의 연봉이 연 $50K를 초과하는지 여부를 예측해 보겠습니다.

개인정보 보호 손실이나 정보 누수를 방지하려면, 비공개(private) 모델을 만들 때 경계를 파라미터로 지정해야 한다는 점을 기억하세요. 일반적으로 도메인 지식을 사용하거나 DP 히스토그램으로 탐색해, 데이터와 독립적으로 경계를 선택할 수 있습니다.

데이터셋은 이미 X_train, y_train, X_test, y_test로 분할되어 있습니다. 분류기는 dp_GaussianNB로 제공됩니다.

Instructions

100 XP
  • 훈련 데이터의 min과 max 값을 계산한 뒤, 우리 데이터의 5개 열 각각에 대해 5에서 40 사이의 무작위 수를 빼고 더해 무작위 잡음을 추가하여 모델의 경계를 설정하세요.
  • epsilon이 0.5이고 앞서 만든 경계를 사용하는 dp_GaussianNB 분류기를 생성하세요.
  • 모델을 데이터에 학습시키고 점수를 확인하세요.