1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa rủi ro tín dụng bằng R

Connected

Bài tập

Giá trị ngoại lai

Đến lúc xem cấu trúc của biến age. Một biểu đồ tần suất đã được vẽ ở bên phải. Tương tự như những gì bạn thấy trong video về thu nhập hằng năm (annual_inc), có rất nhiều khoảng trống ở phía bên phải của biểu đồ. Đây là dấu hiệu của khả năng có giá trị ngoại lai. Bạn sẽ xem một biểu đồ phân tán để kiểm chứng. Nếu tìm thấy giá trị ngoại lai, bạn sẽ xóa chúng.

Nếu quan sát thấy giá trị ngoại lai ở nhiều biến, sẽ hữu ích khi xem các biểu đồ hai biến. Có thể các giá trị ngoại lai thuộc về cùng một quan sát. Nếu vậy, càng có lý do để xóa quan sát đó vì nhiều khả năng một số thông tin trong đó là sai.

Hướng dẫn

100 XP
  • Vẽ biểu đồ phân tán cho biến age (thông qua loan_data$age) bằng hàm plot(). Đặt nhãn cho trục y là "Age" bằng đối số thứ hai ylab.
  • Người lớn tuổi nhất trong tập dữ liệu này hơn 122 tuổi! Lấy chỉ số của giá trị ngoại lai này bằng which() với tuổi 122 làm ngưỡng (bạn có thể dùng loan_data$age > 122). Gán vào đối tượng index_highage.
  • Tạo tập dữ liệu mới new_data sau khi loại bỏ quan sát có tuổi cao bằng đối tượng index_highage.
  • Xem biểu đồ phân tán hai biến, với tuổi trên trục x và thu nhập hằng năm trên trục y. Đổi nhãn lần lượt thành "Age" và "Annual Income".