1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Bảo mật dữ liệu và Ẩn danh trong Python

Connected

Bài tập

Dùng hệ phân cấp cho dữ liệu phân loại

Trong bài tập này, bạn sẽ tạo và sử dụng hệ phân cấp để tổng quát hóa dữ liệu trên cột bachelors của bộ dữ liệu US Adult Income.

Một dictionary khởi tạo sẵn chứa các hệ phân cấp được cung cấp cho bạn dưới tên hierarchies. Nó có ba nhóm cho các loại trình độ học vấn: Primary, Secondary và Higher; mỗi nhóm đi kèm danh sách các giá trị học vấn tương ứng trong dữ liệu. Bạn có thể khám phá nó trong bảng điều khiển tương tác.

Chúng ta sẽ tạo một dictionary mới để lưu thông tin học vấn đã được tổng quát hóa và dùng nó để thay thế các giá trị gốc.

Bộ dữ liệu có sẵn dưới tên income_df.

Hướng dẫn

100 XP
  • Khởi tạo education_hierarchy là một dictionary rỗng.
  • Hoàn thiện vòng lặp bên trong để gán loại học vấn key làm giá trị. Ví dụ {'Some-college': 'Higher education'}.
  • Áp dụng tổng quát hóa theo hệ phân cấp học vấn cho cột bachelors, gán kết quả vào cột mới bachelors_generalized.