1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Stratified K-fold

Như bạn vừa thấy, do chia ngẫu nhiên nên phân phối biến mục tiêu giữa các fold khá khác nhau. Điều này không quá quan trọng với bài thi này, nhưng có thể gây vấn đề trong các bài toán phân loại khi biến mục tiêu bị mất cân bằng mạnh.

Để khắc phục, hãy triển khai chiến lược stratified K-fold với việc phân tầng theo biến mục tiêu. DataFrame train đã có sẵn trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Tạo một đối tượng StratifiedKFold với 3 fold và bật xáo trộn (shuffling).
  • Lặp qua từng lượt chia bằng đối tượng str_kf. Việc phân tầng dựa trên cột "interest_level".
  • Với mỗi lượt chia, chọn các fold huấn luyện và kiểm tra bằng train_index và test_index.