1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Thiết kế quy trình Machine Learning bằng Python

Connected

Bài tập

Thống kê cross-validation

Bạn đã dùng grid search CV để tinh chỉnh bộ phân loại random forest và giờ muốn xem lại kết quả cross-validation để đảm bảo bạn không overfit. Cụ thể, bạn muốn lấy hiệu giữa điểm kiểm định trung bình cho mỗi fold và điểm huấn luyện trung bình. Bộ dữ liệu có sẵn dưới dạng X_train và y_train, pipeline là pipe, và một số mô-đun đã được nạp sẵn bao gồm pandas là pd và GridSearchCV().

Hướng dẫn

100 XP
  • Tạo một đối tượng grid search với ba fold cross-validation và đảm bảo nó trả về cả thống kê trên tập huấn luyện lẫn tập kiểm định.
  • Fit đối tượng grid search lên dữ liệu huấn luyện.
  • Lưu kết quả cross-validation, có trong thuộc tính cv_results_ của đối tượng CV đã fit, vào một dataframe.
  • In ra hiệu giữa cột chứa điểm kiểm định trung bình và cột chứa điểm huấn luyện trung bình.