Khám phá dữ liệu tín dụng

Bạn sẽ làm việc với bộ dữ liệu loan_data đã được giới thiệu trong video xuyên suốt các bài tập của khóa học này.

Sau khi có loan_data, bạn đặc biệt quan tâm đến các khoản vay bị vỡ nợ trong bộ dữ liệu. Bạn muốn nắm được số lượng và tỷ lệ vỡ nợ. Vỡ nợ thường hiếm, nên bạn luôn cần kiểm tra tỷ lệ vỡ nợ trong một bộ dữ liệu cho vay. Hàm CrossTable() rất hữu ích cho việc này.

Hãy nhớ rằng thông tin vỡ nợ được lưu trong biến phản hồi loan_status, với 1 là default (vỡ nợ) và 0 là non-default (không vỡ nợ).

Để hiểu rõ hơn về cấu trúc biến và phát hiện các khuynh hướng bất ngờ trong dữ liệu, bạn nên xem xét mối quan hệ giữa loan_status và một số biến kiểu factor. Ví dụ, bạn kỳ vọng rằng tỷ lệ vỡ nợ trong nhóm khách hàng có grade G (điểm xếp hạng tín dụng xấu nhất) sẽ cao hơn đáng kể so với tỷ lệ vỡ nợ trong nhóm grade A (điểm xếp hạng tín dụng tốt nhất).

Thật tiện lợi, CrossTable() cũng có thể áp dụng cho hai biến phân loại. Cùng khám phá nhé!

Làm quen với bộ dữ liệu bằng cách xem cấu trúc của nó với str().
Nạp gói gmodels bằng library(). Gói này đã được cài sẵn trên máy chủ của DataCamp.
Xem CrossTable() của trạng thái khoản vay, chỉ dùng một đối số: loan_data$loan_status.
Gọi CrossTable() với đối số x là loan_data$grade và đối số y là loan_data$loan_status. Chúng ta chỉ muốn tỷ lệ theo hàng, nên đặt prop.r là TRUE, còn prop.c, prop.t và prop.chisq là FALSE (các giá trị mặc định ở đây là TRUE, điều này sẽ thêm tỷ lệ theo cột, tỷ lệ toàn bảng và đóng góp khi-bình-phương cho mỗi ô. Ở đây chúng ta không cần chúng).

Bài tập

Khám phá dữ liệu tín dụng

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập