1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa Rủi ro Tín dụng bằng Python

Connected

Bài tập

Loại bỏ dữ liệu thiếu

Bạn đã thay thế dữ liệu thiếu trong person_emp_length, nhưng ở bài trước bạn thấy loan_int_rate cũng có dữ liệu thiếu.

Tương tự như việc thiếu dữ liệu trong loan_status, thiếu dữ liệu trong loan_int_rate sẽ khiến việc dự đoán trở nên khó khăn.

Vì lãi suất do công ty bạn thiết lập, việc cột này có dữ liệu thiếu là khá bất thường. Có thể quá trình nạp dữ liệu đã gây ra lỗi, nhưng bạn không thể biết chắc. Hiện tại, tốt nhất là .drop() các bản ghi đó trước khi tiếp tục.

Bộ dữ liệu cr_loan đã được nạp sẵn trong workspace.

Hướng dẫn

100 XP
  • In ra số bản ghi có dữ liệu thiếu ở cột lãi suất.
  • Tạo một mảng các chỉ số (index) cho những hàng thiếu lãi suất, đặt tên là indices.
  • Xóa các bản ghi có thiếu dữ liệu lãi suất và lưu kết quả vào cr_loan_clean.