1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Điều chỉnh mô hình

Một cách đơn giản để điều chỉnh mô hình random forest nhằm xử lý dữ liệu gian lận có độ mất cân bằng cao là dùng tùy chọn class_weights khi định nghĩa mô hình sklearn. Tuy nhiên, như bạn sẽ thấy, đây là cơ chế có phần thô và có thể không phù hợp với trường hợp rất đặc thù của bạn.

Trong bài tập này, bạn sẽ khám phá chế độ weight = "balanced_subsample" của mô hình Random Forest từ bài trước. Bạn đã chia dữ liệu thành tập huấn luyện và tập kiểm tra, tức là X_train, X_test, y_train, y_test đã sẵn sàng. Các hàm đánh giá (metrics) cũng đã được import.

Hướng dẫn

100 XP
  • Đặt tham số class_weight của bộ phân loại thành balanced_subsample.
  • Huấn luyện (fit) mô hình trên tập huấn luyện.
  • Lấy dự đoán và xác suất từ X_test.
  • Tính roc_auc_score, báo cáo phân loại (classification report) và ma trận nhầm lẫn (confusion matrix).