1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Bộ phân loại Rừng ngẫu nhiên - phần 1

Giờ hãy tạo bộ phân loại rừng ngẫu nhiên đầu tiên để phát hiện gian lận. Hy vọng bạn có thể làm tốt hơn độ chính xác cơ bản mà bạn vừa tính được, khoảng 96%. Mô hình này sẽ đóng vai trò mô hình “baseline” mà bạn sẽ cố gắng cải thiện trong các bài tập tiếp theo. Bắt đầu bằng việc chia dữ liệu thành tập huấn luyện và tập kiểm tra, và định nghĩa mô hình Random Forest. Dữ liệu hiện có gồm đặc trưng X và nhãn y.

Hướng dẫn

100 XP
  • Import bộ phân loại random forest từ sklearn.
  • Chia đặc trưng X và nhãn y thành tập huấn luyện và tập kiểm tra. Dành 30% cho tập kiểm tra.
  • Gán bộ phân loại random forest cho model và giữ random_state = 5. Cần đặt random state để có thể so sánh kết quả giữa các mô hình.