1. 学ぶ
  2. /
  3. コース
  4. /
  5. Phân tích Nhân sự (HR Analytics): Dự đoán nghỉ việc bằng Python

Connected

演習

Cắt tỉa cây (pruning)

Overfitting là một vấn đề kinh điển trong phân tích, đặc biệt với thuật toán cây quyết định. Khi cây phát triển tối đa, nó có thể dự đoán rất chính xác trên mẫu huấn luyện nhưng lại kém chính xác trên tập kiểm tra. Vì vậy, quá trình phát triển của cây quyết định thường được kiểm soát bằng cách:

  • “Cắt tỉa” (pruning) cây và đặt giới hạn cho độ sâu tối đa.
  • Giới hạn số lượng quan sát tối thiểu trong một lá của cây.

Trong bài tập này, bạn sẽ:

  • cắt tỉa cây và giới hạn độ sâu tối đa là 5 mức
  • fit mô hình với dữ liệu nhân viên
  • kiểm tra kết quả dự đoán trên cả tập huấn luyện và tập kiểm tra.

Các biến features_train, target_train, features_test và target_test đã có sẵn trong không gian làm việc của bạn.

指示

100 XP
  • Khởi tạo DecisionTreeClassifier và giới hạn độ sâu của cây là 5.
  • Fit mô hình Cây quyết định (Decision Tree) dùng features và target trong tập huấn luyện.
  • Kiểm tra độ chính xác (accuracy) của dự đoán trên cả tập huấn luyện và tập kiểm tra.