1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Giảm rủi ro định danh bằng khái quát hóa (generalization)

Trong bài tập này, bạn sẽ áp dụng phép khái quát hóa trên tập dữ liệu IBM HR Analytics Employee Attrition & Performance.

Cụ thể hơn, bạn sẽ biến đổi biến monthly_income thành một cột nhị phân. Ngưỡng dùng cho phép biến đổi sẽ là giá trị trung bình của lương sau khi làm tròn lên. Giá trị mới sẽ là 0 cho các mục nhỏ hơn hoặc bằng giá trị trung bình dạng số nguyên, và 1 cho các mục lớn hơn.

Tập dữ liệu đã được nạp dưới dạng pandas DataFrame hr.

Hướng dẫn

100 XP
  • Tính giá trị trung bình của cột monthly_income bằng .mean() và làm tròn về số nguyên. Lưu lại vào mean_income.
  • Áp dụng một hàm lambda lên hr['monthly_income'] để khái quát hóa thu nhập: gán 0 cho các giá trị nhỏ hơn hoặc bằng mean_income, và 1 cho các giá trị lớn hơn.
  • Khám phá 5 dòng đầu tiên của DataFrame hr sau khi xử lý.