Điều chỉnh Random Forest cho bài toán phát hiện gian lận

Trong bài tập này, bạn sẽ tìm hiểu các tùy chọn của bộ phân loại random forest bằng cách gán trọng số và tinh chỉnh cấu trúc của các cây quyết định trong rừng. Bạn sẽ tự đặt trọng số thủ công để bù lại phần nào sự mất cân bằng. Ở đây có 300 giao dịch gian lận và 7000 giao dịch không gian lận, nên khi đặt tỷ lệ trọng số là 1:12, ta đạt tỷ lệ xấp xỉ 1/3 gian lận và 2/3 không gian lận, đủ tốt để huấn luyện mô hình.

Dữ liệu đã được chia sẵn thành tập huấn luyện và tập kiểm tra, nên bạn chỉ cần tập trung định nghĩa mô hình. Sau đó, bạn có thể dùng hàm get_model_results() như một lối tắt. Hàm này sẽ fit mô hình trên dữ liệu huấn luyện, dự đoán và tính các chỉ số hiệu năng tương tự những bước bạn đã làm ở các bài trước.

Đổi tùy chọn weight để đặt tỷ lệ 1 đến 12 cho các trường hợp không gian lận và gian lận, và đặt tiêu chí chia tách là 'entropy'.
Đặt độ sâu tối đa là 10.
Đặt số mẫu tối thiểu ở các nút lá là 10.
Đặt số lượng cây sử dụng trong mô hình là 20.

Bài tập

Điều chỉnh Random Forest cho bài toán phát hiện gian lận

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập