1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Phân tích chi phí thực tế

Bạn sẽ tiếp tục làm việc với bộ dữ liệu tín dụng trong bài tập này. Hãy nhớ rằng "dương" trong bộ dữ liệu này nghĩa là "tín dụng xấu", tức khách hàng đã vỡ nợ khoản vay; còn "âm" là khách hàng tiếp tục trả đúng hạn. Quản lý ngân hàng cho biết ngân hàng trung bình lãi 10K từ mỗi khách hàng "rủi ro tốt", nhưng mất 150K với mỗi khách hàng "rủi ro xấu". Thuật toán của bạn sẽ dùng để sàng lọc hồ sơ: những người bị gán nhãn "âm" sẽ được cho vay, còn nhãn "dương" sẽ bị từ chối. Tổng chi phí của bộ phân loại của bạn là bao nhiêu? Dữ liệu có sẵn dưới dạng X_train, X_test, y_train và y_test. Các hàm confusion_matrix(), f1_score(), precision_score() và RandomForestClassifier() đã được cung cấp.

Hướng dẫn

100 XP
  • Huấn luyện một bộ phân loại random forest trên dữ liệu huấn luyện.
  • Dùng mô hình để gán nhãn cho dữ liệu kiểm tra.
  • Trích xuất số lượng âm giả (false negatives) và dương giả (false positives) từ confusion_matrix(). Bạn sẽ cần làm phẳng ma trận.
  • Phân loại sai một khách hàng "tốt" thành "xấu" nghĩa là ngân hàng bỏ lỡ cơ hội lãi 10K. Phân loại sai một khách hàng "xấu" thành "tốt" nghĩa là ngân hàng sẽ mất 150K do khách hàng vỡ nợ.