1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

GridSearchCV để tìm tham số tối ưu

Trong bài tập này, bạn sẽ tinh chỉnh mô hình theo cách bớt “ngẫu nhiên” bằng cách dùng GridSearchCV để làm việc đó cho bạn.

Với GridSearchCV, bạn có thể xác định chỉ số hiệu năng để chấm điểm cho các lựa chọn. Vì trong phát hiện gian lận, mục tiêu chính là bắt được càng nhiều giao dịch gian lận càng tốt, bạn có thể tối ưu thiết lập mô hình để đạt điểm Recall cao nhất. Nếu bạn cũng muốn giảm số lượng dương tính giả, bạn có thể tối ưu theo F1-score để cân bằng giữa Precision và Recall.

GridSearchCV đã được import sẵn từ sklearn.model_selection, hãy thử áp dụng nhé!

Hướng dẫn

100 XP
  • Xác định trong lưới tham số rằng bạn muốn thử 1 và 30 cây, và muốn thử tiêu chí chia gini và entropy.
  • Định nghĩa mô hình là RandomForestClassifier đơn giản; giữ random_state ở 5 để có thể so sánh các mô hình.
  • Đặt tùy chọn scoring để tối ưu theo recall.
  • Huấn luyện mô hình trên dữ liệu train X_train và y_train và lấy ra bộ tham số tốt nhất cho mô hình.