1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Giảm Chiều Dữ Liệu với Python

Connected

Bài tập

Lọc bỏ các đặc trưng tương quan cao

Bạn sẽ tự động loại bỏ các đặc trưng có mức tương quan cao trong bộ dữ liệu ANSUR dạng số. Bạn sẽ tính ma trận tương quan và lọc các cột có hệ số tương quan lớn hơn 0.95 hoặc nhỏ hơn -0.95.

Vì mỗi hệ số tương quan xuất hiện hai lần trong ma trận (tương quan của A với B bằng tương quan của B với A), bạn sẽ muốn bỏ qua một nửa ma trận tương quan để chỉ loại một trong hai đặc trưng có tương quan. Hãy dùng một mẹo tạo mask cho mục đích này.

Hướng dẫn

100 XP
  • Tính ma trận tương quan của ansur_df và lấy giá trị tuyệt đối của ma trận này.
  • Tạo một mask boolean với các giá trị True ở tam giác trên bên phải và áp dụng nó lên ma trận tương quan.
  • Đặt ngưỡng hệ số tương quan là 0.95.
  • Loại (drop) tất cả các cột liệt kê trong to_drop khỏi DataFrame.