1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Gộp mọi thứ lại với nhau

Bạn vừa gia nhập một startup phát hiện rối loạn nhịp tim và muốn huấn luyện mô hình trên bộ dữ liệu rối loạn nhịp arrh. Bạn nhận thấy random forest thường thắng khá nhiều cuộc thi Kaggle, nên bạn muốn thử với các giá trị độ sâu tối đa là 2, 5 hoặc 10, dùng grid search. Bạn cũng nhận ra bộ dữ liệu có số chiều khá lớn, nên muốn xem xét tác động của một phương pháp chọn đặc trưng.

Để tránh overfit do sơ suất, bạn đã chia dữ liệu sẵn. Bạn sẽ dùng X_train và y_train cho grid search, và X_test cùng y_test để quyết định liệu chọn đặc trưng có hữu ích hay không. Cả bốn phần dữ liệu đã được nạp sẵn trong môi trường của bạn. Bạn cũng có sẵn GridSearchCV(), train_test_split(), SelectKBest(), chi2() và RandomForestClassifier với tên rfc.

Hướng dẫn

100 XP
  • Dùng grid search để thử các giá trị độ sâu tối đa 2, 5 và 10 cho RandomForestClassifier và lưu cấu hình tham số cho hiệu suất tốt nhất.
  • Sau đó refit estimator bằng số lượng cây ước lượng tốt nhất rút ra ở bước trên.
  • Áp dụng bộ chọn đặc trưng SelectKBest với hàm chấm điểm chi2 và refit bộ phân loại.