1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích Nhân sự (HR Analytics): Dự đoán nghỉ việc bằng Python

Connected

Bài tập

Sắp xếp các đặc trưng quan trọng

Một trong những lý do Decision Trees rất phổ biến là vì khả năng giải thích của chúng. Nhiều mô hình có thể dự đoán chính xác, nhưng Decision Trees còn có thể định lượng tác động của các đặc trưng khác nhau lên biến mục tiêu. Ở đây, mô hình có thể cho bạn biết đặc trưng nào ảnh hưởng mạnh nhất và yếu nhất đến quyết định rời công ty. Trong sklearn, bạn có thể lấy thông tin này bằng thuộc tính feature_importances_.

Trong bài tập này, bạn sẽ lấy mức độ quan trọng đã được định lượng của từng đặc trưng, lưu chúng vào một pandas DataFrame (một bảng theo phong cách Python), và sắp xếp từ quan trọng nhất đến kém quan trọng hơn. Mô hình Decision Tree Classifier model_ best được dùng ở các bài trước có sẵn trong workspace của bạn, cùng với các biến features_test và features_train.

pandas đã được import với bí danh pd.

Hướng dẫn

100 XP
  • Dùng thuộc tính feature_importances_ để tính mức độ quan trọng tương đối của các đặc trưng
  • Tạo danh sách các đặc trưng
  • Lưu kết quả vào một DataFrame bằng hàm DataFrame(), trong đó các đặc trưng là các hàng và giá trị tương ứng là một cột
  • Sắp xếp DataFrame relative_importances để đưa các đặc trưng quan trọng nhất lên trên bằng hàm sort_values() và in kết quả