1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Che giấu (mask) PII nhạy cảm

Bạn được cung cấp một tập dữ liệu chứa các số Social Security (SSN) của công dân Mỹ cùng với thành phố và độ tuổi. Nếu đây là dữ liệu chưa công bố và chỉ được phép chia sẻ với chúng ta, thì việc công khai sẽ dẫn đến vi phạm quyền riêng tư vì bạn đang tiết lộ dữ liệu mà các chủ thể không mong đợi chúng ta chia sẻ.

Nhiệm vụ của bạn là ẩn danh dữ liệu bằng cách áp dụng che giấu một phần (partial masking) cho PII nhạy cảm ssn. Hãy nhớ, che giấu dữ liệu (data masking) là ẩn/làm nhiễu dữ liệu để tránh vi phạm quyền riêng tư, đồng thời vẫn giữ nguyên định dạng và ý nghĩa tổng thể.

Tập dữ liệu đã được nạp dưới tên insurance_df, nhưng hãy lưu dữ liệu sau khi che giấu vào masked_df để giữ nguyên insurance_df ban đầu.

Hướng dẫn 1/2

undefined XP
  • 1
    • Che giấu cột ssn của masked_df bằng '*'.
    • Xem 5 hàng đầu tiên của DataFrame kết quả bằng .head().
  • 2
    • Áp dụng che giấu một phần cho ssn bằng một hàm lambda, trong đó với mỗi chuỗi s, nối ký tự đầu tiên với "****" và ký tự cuối cùng (ví dụ: "1****6").