1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa rủi ro tín dụng bằng R

Connected

Bài tập

Giữ lại dữ liệu thiếu

Trong một số trường hợp, việc một đầu vào bị thiếu tự thân nó đã là thông tin quan trọng. Bạn có thể giữ các giá trị NA trong một hạng mục "missing" riêng bằng cách phân loại thô.

Phân loại thô giúp đơn giản hóa dữ liệu và cải thiện khả năng diễn giải của mô hình. Cách này yêu cầu bạn gom các giá trị phản hồi vào những nhóm theo khoảng giá trị. Bạn có thể dùng kỹ thuật gom nhóm này để đặt toàn bộ NA vào một nhóm riêng.

Trong video, chúng ta minh họa ý tưởng phân loại thô cho số năm làm việc. Mã từ ví dụ đó đã được đưa sẵn trong R script bên phải và có thể điều chỉnh để phân loại thô biến int_rate.

Hướng dẫn

100 XP
  • Thực hiện các thay đổi cần thiết đối với đoạn mã đã cho để phân loại thô int_rate, và lưu kết quả vào biến mới tên ir_cat.
    • Đầu tiên, thay loan_data$emp_cat bằng loan_data$ir_cat ở mọi chỗ trong R script, đồng thời thay loan_data$emp_length bằng loan_data$int_rate.
    • Tiếp theo, các biến cần được gom nhóm vào các hạng mục "0-8", "8-11", "11-13.5", và "13.5+" (thay cho "0-15","15-30","30-45" và "45+"). Cách dùng > và <= hoàn toàn giống như trong video. Nhớ đổi cả các con số trong các biểu thức điều kiện nữa (15, 30 và 45 tương ứng đổi thành 8, 11 và 13.5).
  • Xem biến mới ir_cat của bạn bằng plot(loan_data$ir_cat).