1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Xây dựng bộ phân loại đảm bảo quyền riêng tư vi phân

Trong bài tập này, bạn sẽ xây dựng và huấn luyện một mô hình Gaussian Naive Bayes riêng tư trên bộ dữ liệu Penguin để phân loại chim cánh cụt là đực hay cái.

K-anonymity không hoạt động tốt với các bộ dữ liệu có chiều cao hoặc đa dạng do những hạn chế lý thuyết và thực nghiệm đáng kể của nó — hay còn gọi là “lời nguyền chiều không gian”. Khi số lượng đặc trưng/chiều tăng lên, lượng dữ liệu cần để khái quát hóa chính xác sẽ tăng theo cấp số nhân. Đây là một trong những lý do tại sao differential privacy hiện là mô hình bảo mật được ưa chuộng. Epsilon độc lập với mọi tri thức nền và “giới hạn” thông tin nhạy cảm.

DataFrame đã được nạp là penguin_df và tách thành X_train, y_train, X_test và y_test. Lớp mô hình riêng tư đã được import là dp_GaussianNB.

Hướng dẫn

100 XP
  • Tạo một bộ phân loại dp_GaussianNB không truyền tham số.
  • Fit mô hình vừa tạo với dữ liệu mà không truyền tham số nào.
  • Tính điểm (score) của mô hình riêng tư dựa trên dữ liệu test.