1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

K-fold cross-validation

Bạn sẽ bắt đầu với trải nghiệm thực hành về phương pháp K-fold cross-validation được dùng phổ biến nhất.

Bộ dữ liệu bạn sẽ dùng đến từ cuộc thi Kaggle "Two sigma connect: rental listing inquiries". Bài toán của cuộc thi là phân loại đa lớp các tin đăng cho thuê vào 3 nhóm: mức độ quan tâm thấp, trung bình và cao. Để chạy nhanh hơn, bạn sẽ làm việc với một mẫu con gồm 1.000 quan sát.

Bạn cần triển khai chiến lược xác thực K-fold và xem kích thước của từng fold thu được. DataFrame train đã có sẵn trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Tạo một đối tượng KFold với 3 fold.
  • Lặp qua từng lượt chia bằng đối tượng kf.
  • Với mỗi lượt, chọn các fold huấn luyện và kiểm tra bằng train_index và test_index.