1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Gom tất cả lại với nhau

Bạn có hai mối bận tâm về pipeline tại startup phát hiện loạn nhịp tim:

  • Ứng dụng được huấn luyện trên bệnh nhân ở mọi độ tuổi, nhưng hiện chủ yếu được dùng bởi người tập thể dục, thường là người trẻ. Bạn nghi ngờ đây có thể là một trường hợp dịch chuyển miền (domain shift), nên muốn loại bỏ mọi ví dụ trên 50 tuổi.
  • Bạn vẫn lo về overfitting, nên muốn xem liệu giảm độ phức tạp của random forest classifier và chọn lọc một số đặc trưng có giúp cải thiện hay không.

Bạn sẽ tạo một pipeline với bước chọn đặc trưng SelectKBest() và RandomForestClassifier, cả hai đều đã được import. Bạn cũng có GridSearchCV(), Pipeline, numpy là np và pickle. Dữ liệu có sẵn dưới tên arrh.

Hướng dẫn

100 XP
  • Tạo một pipeline với SelectKBest() là bước ft và RandomForestClassifier() là bước clf.
  • Tạo một lưới tham số để tinh chỉnh k trong SelectKBest() và max_depth trong RandomForestClassifier().
  • Dùng GridSearchCV() để tối ưu pipeline của bạn theo lưới đó và dữ liệu chỉ gồm những người dưới 50 tuổi.
  • Lưu pipeline đã tối ưu vào một pickle để đưa vào sản xuất.