1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học có giám sát trong R: Phân loại

Connected

Bài tập

Ngăn cây phát triển quá mức

Cây được huấn luyện trên toàn bộ dữ liệu ứng viên đã trở nên cực kỳ lớn và phức tạp, với hàng trăm nút tách và các lá chỉ chứa vài ứng viên. Một nhân viên phê duyệt khoản vay gần như không thể diễn giải được cây này.

Bằng cách dùng các phương pháp cắt tỉa sớm (pre-pruning) để dừng sớm, bạn có thể ngăn cây phát triển quá lớn và quá phức tạp. Hãy xem các tùy chọn điều khiển của rpart về độ sâu tối đa của cây và số lượng mẫu tối thiểu để tách ảnh hưởng thế nào đến cây kết quả.

rpart đã được nạp sẵn.

Hướng dẫn 1/2

undefined XP
  • 1
    • Dùng rpart() để xây dựng mô hình cho vay với tập huấn luyện và tất cả biến dự báo sẵn có.
      • Đặt control của mô hình bằng rpart.control() với tham số cp là 0 và maxdepth là 6.
    • Xem độ chính xác trên tập kiểm tra của mô hình đơn giản này so với độ chính xác gốc 58.3%.
      • Trước tiên tạo một vector dự đoán bằng hàm predict().
      • So sánh dự đoán với kết quả thực tế và dùng mean() để tính độ chính xác.
  • 2

    Trong phần điều khiển mô hình, bỏ maxdepth và thêm tham số tách tối thiểu minsplit, đặt là 500.