1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Ensemble Methods in Python

Connected

Bài tập

Chọn mô hình tốt nhất

Trong bài tập này, bạn sẽ so sánh các bộ phân loại khác nhau và chọn ra bộ phân loại hoạt động tốt nhất.

Bộ dữ liệu ở đây — đã được nạp và chia sẵn thành tập huấn luyện và tập kiểm tra — gồm các Pokémon: chỉ số, loại (type) và liệu chúng có phải là huyền thoại (legendary) hay không. Mục tiêu của các bộ phân loại là dự đoán biến 'Legendary' này.

Ba bộ phân loại riêng lẻ đã được huấn luyện trên tập huấn luyện:

  • clf_lr là logistic regression.
  • clf_dt là decision tree.
  • clf_knn là bộ phân loại 5-nearest neighbors.

Vì các lớp bị mất cân bằng — chỉ có 65 trên 800 Pokémon trong bộ dữ liệu là huyền thoại — nên chúng ta sẽ dùng F1-Score để đánh giá hiệu năng. Hàm f1_score() của scikit-learn đã được nhập sẵn cho bạn.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Dự đoán nhãn của X_test bằng từng bộ phân loại clf_lr, clf_dt và clf_knn.