1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Che giấu dữ liệu với PCA

PCA để giả ẩn danh (pseudo-anonymization) được rất nhiều công ty sử dụng. Bạn có thể tìm thấy nhiều thử thách và bộ dữ liệu trên Kaggle trong đó dữ liệu được cung cấp sau khi đã biến đổi bằng PCA.

Một phiên bản PCA có tính riêng tư vi phân cũng có trong diffprivlib ở mô-đun models. Nó dựa trên lớp PCA từ sklearn nhưng bổ sung các tham số tùy chọn cho epsilon và giới hạn min/max, giống như bạn đã thấy ở chương trước.

Trong bài tập này, bạn sẽ áp dụng che giấu dữ liệu bằng PCA trên bộ dữ liệu Lương NBA, đã được nạp sẵn dưới tên players.

Hướng dẫn

100 XP
  • Import PCA từ sklearn.
  • Khởi tạo PCA() với số thành phần bằng đúng số cột.
  • Áp dụng pca lên players.
  • Xem bộ dữ liệu thu được.