1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa Rủi ro Tín dụng bằng Python

Connected

Bài tập

Undersampling dữ liệu huấn luyện

Đến lúc bạn tự thực hiện undersampling trên tập huấn luyện bằng vài dòng mã Pandas. Khi undersampling xong, bạn có thể kiểm tra tần suất giá trị của loan_status để xác nhận kết quả.

X_y_train, count_nondefault, và count_default đã được nạp sẵn trong workspace. Chúng được tạo bằng đoạn mã sau:

X_y_train = pd.concat([X_train.reset_index(drop = True),
                       y_train.reset_index(drop = True)], axis = 1)
count_nondefault, count_default = X_y_train['loan_status'].value_counts()

Kết quả .value_counts() cho dữ liệu huấn luyện gốc sẽ được in tự động.

Hướng dẫn

100 XP
  • Tạo hai tập dữ liệu non-default và default, lưu lần lượt vào nondefaults và defaults.
  • Lấy mẫu nondefaults xuống bằng với count_default và lưu vào nondefaults_under.
  • Nối nondefaults và defaults bằng .concat() và lưu vào X_y_train_under.
  • In .value_counts() của loan status cho tập dữ liệu mới.