1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa rủi ro tín dụng bằng R

Connected

Bài tập

Cây cuối cùng với nhiều tùy chọn hơn

Trong bài tập này, bạn sẽ dùng một số đối số cuối cùng đã được đề cập trong video. Một vài thiết lập trong hàm rpart.control() sẽ được thay đổi, và sẽ thêm trọng số bằng đối số weights trong rpart(). Vector case_weights đã được tạo sẵn cho bạn và nạp vào môi trường làm việc. Vector này chứa trọng số bằng 1 cho các quan sát không vỡ nợ trong tập huấn luyện, và trọng số bằng 3 cho các quan sát vỡ nợ trong tập huấn luyện. Bằng cách đặt trọng số cao hơn cho vỡ nợ, mô hình sẽ coi trọng hơn việc phân loại đúng các trường hợp vỡ nợ.

Hướng dẫn

100 XP
  • Đặt seed bằng 345.
  • Bổ sung vào đoạn mã cho sẵn bằng cách truyền case_weights vào đối số weights của rpart().
  • Thay đổi số lần chia tối thiểu được phép tại một nút thành 5, và số lượng quan sát tối thiểu ở các lá thành 2 bằng các đối số minsplit và minbucket trong rpart.control tương ứng.
  • Dùng hàm plotcp() để xem nơi nào có thể tối thiểu hóa tỷ lệ lỗi cross-validated.
  • Dùng which.min() để xác định dòng có "xerror" nhỏ nhất trong tree_weights$cp. Gán kết quả cho index.
  • Dùng mã cho sẵn để chọn cp tại đó lỗi cross-validated được tối thiểu hóa
  • Cắt tỉa (prune) cây bằng tham số độ phức tạp tại điểm tỷ lệ lỗi cross-validated được tối thiểu hóa. Lưu cây đã cắt tỉa vào ptree_weights.
  • Vẽ cây đã cắt tỉa bằng hàm prp(). Thêm đối số thứ hai extra và đặt bằng 1.