1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Lấy mẫu theo cùng một phân phối xác suất

Nhiều tổ chức, như U.S. Census, công khai phát hành các mẫu dữ liệu họ thu thập về công dân. Các bộ dữ liệu này được ẩn danh trước bằng nhiều kỹ thuật, sau đó chỉ một phần rất nhỏ, khoảng 1% đến 5% của mẫu, được phát hành để phục vụ tính toán. Việc lấy mẫu được biết là giữ nguyên các đặc trưng thống kê của dữ liệu, cho phép mọi người nghiên cứu và hiểu về quần thể nền.

Trong bài tập này, bạn sẽ ẩn danh cột department của bộ dữ liệu IBM HR bằng cách lấy mẫu theo các phân phối của bộ dữ liệu gốc.

Bộ dữ liệu đã được nạp với tên hr.

Hướng dẫn

100 XP
  • Lấy tần suất tương đối của mỗi giá trị duy nhất trong cột department.
  • Trích xuất các xác suất từ counts và lưu vào một biến tên là distributions.
  • Lấy mẫu dựa trên các phân phối xác suất đã tính trước đó. Kích thước mẫu phải bằng với kích thước của bộ dữ liệu hr.