1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Pipeline đầu tiên của bạn - lần nữa!

Quay lại startup về rối loạn nhịp tim, buổi đánh giá hằng tháng của bạn sắp đến, và sẽ có một lập trình viên Python chuyên gia xem xét mã của bạn. Bạn quyết định dọn dẹp theo thực hành tốt nhất và thay thế script chọn đặc trưng và phân loại random forest bằng một pipeline. Bạn đang dùng bộ dữ liệu huấn luyện có sẵn là X_train và y_train, cùng một số mô-đun: RandomForestClassifier, SelectKBest() và f_classif() để chọn đặc trưng, cũng như GridSearchCV và Pipeline.

Hướng dẫn

100 XP
  • Tạo một pipeline với bộ chọn đặc trưng như trong mã mẫu và một bộ phân loại random forest. Đặt tên bước đầu tiên là feature_selection.
  • Thêm hai cặp khóa-giá trị trong params: một cho số lượng đặc trưng k trong bộ chọn với các giá trị 10 và 20, và một cho n_estimators trong rừng với các giá trị có thể là 2 và 5.
  • Khởi tạo một đối tượng GridSearchCV với pipeline và lưới tham số đã cho.
  • Fit đối tượng vào dữ liệu và in ra tổ hợp tham số có hiệu năng tốt nhất.