1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa Rủi ro Tín dụng bằng Python

Connected

Bài tập

Thay thế dữ liệu tín dụng bị thiếu

Bây giờ, bạn cần kiểm tra dữ liệu bị thiếu. Nếu thiếu dữ liệu trong loan_status, bạn sẽ không thể dùng dữ liệu đó để dự đoán xác suất vỡ nợ vì bạn không biết khoản vay đó có vỡ nợ hay không. Dữ liệu thiếu trong person_emp_length thì ít nghiêm trọng hơn, nhưng vẫn có thể gây lỗi khi huấn luyện.

Vì vậy, hãy kiểm tra dữ liệu bị thiếu trong cột person_emp_length và thay bất kỳ giá trị thiếu nào bằng giá trị trung vị.

Bộ dữ liệu cr_loan đã được nạp sẵn trong workspace.

Hướng dẫn

100 XP
  • In ra một mảng tên các cột có chứa dữ liệu bị thiếu bằng .isnull().
  • In 5 dòng đầu tiên của các bản ghi có thiếu dữ liệu ở person_emp_length.
  • Thay thế dữ liệu bị thiếu bằng trung vị của toàn bộ độ dài thời gian làm việc bằng .fillna().
  • Tạo biểu đồ histogram cho cột person_emp_length để kiểm tra phân phối.