1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa Rủi ro Tín dụng bằng Python

Connected

Bài tập

One-hot encoding dữ liệu tín dụng

Đã đến lúc chuẩn bị các cột không phải số để bạn có thể thêm chúng vào mô hình LogisticRegression().

Sau khi tạo các cột mới bằng one-hot encoding, bạn có thể nối chúng với các cột dạng số để tạo một data frame mới. Data frame này sẽ được dùng xuyên suốt phần còn lại của khóa học để dự đoán xác suất vỡ nợ.

Nhớ chỉ one-hot encode các cột không phải số. Nếu làm vậy với các cột số, bạn sẽ tạo ra một bộ dữ liệu cực kỳ rộng!

Dữ liệu khoản vay tín dụng, cr_loan_clean, đã được nạp sẵn trong môi trường làm việc.

Hướng dẫn

100 XP
  • Tạo một tập dữ liệu cho tất cả các cột số gọi là cred_num và một tập cho các cột không phải số gọi là cred_str.
  • Dùng one-hot encoding trên cred_str để tạo tập dữ liệu mới gọi là cred_str_onehot.
  • Hợp nhất cred_num với dữ liệu đã one-hot encode mới và lưu kết quả thành cr_loan_prep.
  • In ra danh sách cột của tập dữ liệu mới.