1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Time K-fold

Nhớ lại bài "Store Item Demand Forecasting Challenge" nơi bạn được cung cấp dữ liệu doanh số theo cửa hàng-mặt hàng và cần dự đoán doanh số tương lai?

Đây là một cuộc thi với dữ liệu chuỗi thời gian. Vì vậy, cần áp dụng phương pháp cross-validation theo thời gian (time K-fold). Mục tiêu của bạn là tạo chiến lược cross-validation này và kiểm tra rằng nó hoạt động đúng như mong đợi.

Lưu ý: DataFrame train đã có sẵn trong môi trường làm việc của bạn, và TimeSeriesSplit đã được import từ sklearn.model_selection.

Hướng dẫn

100 XP
  • Tạo một đối tượng TimeSeriesSplit với 3 splits.
  • Sắp xếp dữ liệu train theo cột "date" để áp dụng time K-fold.
  • Lặp qua từng lần chia theo thời gian bằng đối tượng time_kfold.
  • Với mỗi lần chia, chọn các fold huấn luyện và kiểm tra bằng train_index và test_index.