1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học có giám sát trong R: Phân loại

Connected

Bài tập

Ngăn cây phát triển quá mức

Cây được huấn luyện trên toàn bộ dữ liệu ứng viên đã phát triển cực kỳ lớn và phức tạp, với hàng trăm nhánh chia và các nút lá chỉ chứa vài ứng viên. Cây như vậy gần như không thể để một nhân viên phê duyệt khoản vay diễn giải được.

Dùng các phương pháp cắt tỉa trước (pre-pruning) để dừng sớm, bạn có thể ngăn cây trở nên quá lớn và phức tạp. Hãy xem các tùy chọn điều khiển của rpart về độ sâu tối đa của cây và số lượng mẫu tối thiểu để chia ảnh hưởng đến cây kết quả như thế nào.

Các bộ dữ liệu loans_train và loans_test đã được tạo, và rpart đã được nạp sẵn.

Hướng dẫn 1/2

undefined XP
  • 1
    • Dùng rpart() để xây dựng mô hình phê duyệt khoản vay bằng bộ dữ liệu huấn luyện và tất cả biến dự báo hiện có.
      • Đặt các control của mô hình bằng rpart.control() với tham số cp bằng 0 và maxdepth bằng 6.
    • Xem độ chính xác trên tập kiểm tra của mô hình đơn giản hơn so với độ chính xác gốc 58,3% như thế nào.
      • Trước tiên tạo một vector dự đoán bằng hàm predict().
      • So sánh dự đoán với kết quả thực tế và dùng mean() để tính độ chính xác.
  • 2

    Trong phần điều khiển mô hình, bỏ maxdepth và thêm tham số số mẫu tối thiểu để chia, minsplit, đặt bằng 500.