1. Learn
  2. /
  3. Courses
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Exercise

Dự đoán mức lương

Trong bài tập này, bạn sẽ dùng bộ dữ liệu thu nhập dân số để dự đoán liệu một cá nhân có mức lương trên $50K/năm hay không.

Hãy nhớ rằng bạn nên chỉ định bounds như một tham số khi tạo mô hình riêng tư để đảm bảo không có thêm tổn thất quyền riêng tư hoặc rò rỉ thông tin. Thông thường, bạn có thể chọn bounds độc lập với dữ liệu dựa trên hiểu biết miền hoặc tìm kiếm bằng biểu đồ DP (DP histogram).

Bộ dữ liệu đã được nạp và tách thành X_train, y_train, X_test và y_test. Bộ phân loại có sẵn dưới tên dp_GaussianNB.

Instructions

100 XP
  • Thiết lập bounds cho mô hình bằng cách tính giá trị min và max trên dữ liệu huấn luyện rồi thêm nhiễu ngẫu nhiên bằng cách trừ và cộng các số ngẫu nhiên trong khoảng từ 5 đến 40 cho 5 cột trong dữ liệu của chúng ta.
  • Tạo một bộ phân loại dp_GaussianNB với epsilon bằng 0.5 và bounds đã tạo ở bước trước.
  • Fit mô hình với dữ liệu và xem điểm số.