1. Învăţa
  2. /
  3. Courses
  4. /
  5. Mô hình hóa rủi ro tín dụng bằng R

Connected

exercise

Cắt tỉa cây với xác suất tiên nghiệm đã thay đổi

Trong video, bạn đã học rằng cần cắt tỉa cây để tránh overfitting. Ở các bài trước có một số cây rất lớn, và giờ bạn sẽ áp dụng những gì đã học để cắt tỉa cây đã xây dựng trước đó với xác suất tiên nghiệm đã thay đổi. Gói rpart đã được nạp trong không gian làm việc của bạn.

Trước tiên, bạn sẽ đặt seed để đảm bảo kết quả có thể tái lập như đã đề cập trong video, vì bạn sẽ xem xét các kết quả lỗi được cross-validate. Những kết quả này có tính ngẫu nhiên và có thể hơi khác nhau nếu chạy lại hàm với seed khác.

Trong bài tập này, bạn sẽ học cách xác định tham số độ phức tạp (CP) nào giúp tối thiểu hóa lỗi cross-validated, rồi cắt tỉa cây của bạn dựa trên giá trị đó.

Instrucţiuni

100 XP
  • tree_prior đã được nạp trong không gian làm việc của bạn.
  • Dùng plotcp() để trực quan hóa lỗi cross-validated (X-val Relative Error) theo tham số độ phức tạp cho tree_prior.
  • Dùng printcp() để in bảng thông tin về CP, số lần tách (splits), và lỗi. Xem liệu bạn có thể xác định được lần tách nào cho lỗi cross-validated nhỏ nhất trong tree_prior.
  • Dùng which.min() để xác định hàng nào trong tree_prior$cptable có lỗi cross-validated nhỏ nhất "xerror". Gán vào index.
  • Tạo tree_min bằng cách chọn chỉ số của tree_prior$cptable trong cột "CP".
  • Dùng hàm prune() để thu được cây đã cắt tỉa. Đặt tên cây đã cắt tỉa là ptree_prior.
  • Gói rpart.plot đã được nạp trong không gian làm việc của bạn. Vẽ cây đã cắt tỉa bằng hàm prp() (thiết lập mặc định).