1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

K-anonymizing a dataset

Trong bài tập này, bạn sẽ ẩn danh bộ dữ liệu NBA Salaries. Hãy nhớ rằng bạn cần chỉ định loại thuộc tính để áp dụng k-anonymity. Chúng có thể là nhận dạng, bán nhận dạng (quasi-identifying), nhạy cảm hoặc không nhạy cảm. Chúng ta sẽ tập trung vào age và nba_origin làm thuộc tính bán nhận dạng và salary là dữ liệu nhạy cảm.

Khám phá nba. Nếu bạn biết thông tin về một cầu thủ, ví dụ anh/chị ấy đến từ Spain và 23 tuổi, thì bạn có thể suy ra thông tin nhạy cảm như mức lương của anh/chị ấy! Ở đây, chúng ta sẽ dùng giá trị K bằng 3, đảm bảo rằng các thuộc tính đã chọn không thể được phân biệt khỏi ít nhất k-1 dòng khác.

Từ điển phân cấp cho nba_Origin đã được tạo sẵn với tên origin_hierarchy.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • In ra số lượng kết hợp duy nhất của age và nba_origin trong bộ dữ liệu bằng cách nhóm theo các giá trị này và đặt tên cột mới là count.