1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Hồi quy Logistic

Trong bài học cuối này, bạn sẽ kết hợp ba thuật toán vào một mô hình với VotingClassifier. Cách này giúp tận dụng thế mạnh khác nhau của từng mô hình, kỳ vọng cải thiện hiệu năng tổng thể và phát hiện thêm nhiều gian lận. Mô hình đầu tiên, Logistic Regression, có điểm recall nhỉnh hơn một chút so với mô hình Random Forest tối ưu của chúng ta, nhưng lại tạo ra nhiều dương tính giả hơn. Bạn cũng sẽ thêm một Decision Tree với trọng số cân bằng. Dữ liệu đã được chia sẵn thành tập huấn luyện và kiểm tra, tức là X_train, y_train, X_test, y_test đã sẵn sàng.

Để hiểu cách Voting Classifier có thể cải thiện mô hình gốc, trước hết bạn nên kiểm tra kết quả độc lập của mô hình Logistic Regression.

Hướng dẫn

100 XP
  • Định nghĩa một mô hình LogisticRegression với trọng số lớp là 1:15 cho các trường hợp gian lận.
  • Huấn luyện mô hình trên tập huấn luyện và lấy dự đoán của mô hình.
  • In báo cáo phân loại và ma trận nhầm lẫn.