1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Khám phá hiện tượng overfitting với XGBoost

Sau khi huấn luyện 3 mô hình XGBoost với các độ sâu tối đa khác nhau, bạn sẽ đánh giá chất lượng của chúng. Cụ thể, bạn sẽ đo lường chất lượng của từng mô hình trên cả dữ liệu train và dữ liệu test. Như bạn đã biết, dữ liệu train là dữ liệu mà mô hình được huấn luyện. Dữ liệu test là dữ liệu doanh số của tháng tiếp theo mà mô hình chưa từng thấy trước đó.

Mục tiêu của bài tập này là xác định xem có mô hình nào bị overfitting hay không. Để đo lường chất lượng mô hình, bạn sẽ dùng Mean Squared Error (MSE). Hàm này có sẵn trong sklearn.metrics dưới tên mean_squared_error() và nhận hai đối số: giá trị thực và giá trị dự đoán.

Các DataFrame train và test cùng với 3 mô hình đã được huấn luyện (xg_depth_2, xg_depth_8, xg_depth_15) đã có sẵn trong workspace của bạn.

Hướng dẫn

100 XP
  • Tạo dự đoán cho mỗi mô hình trên cả dữ liệu train và dữ liệu test.
  • Tính MSE giữa giá trị thực và dự đoán của bạn cho cả dữ liệu train và dữ liệu test.