1. Nauka
  2. /
  3. Kursy
  4. /
  5. Zwycięstwo w konkursie Kaggle w Pythonie

Connected

ćwiczenie

Stratyfikowany K-fold

Jak właśnie zauważasz, rozkład zmiennej docelowej różni się dość znacznie między foldami ze względu na losowe podziały. W przypadku tego konkretnego konkursu nie jest to kluczowy problem, jednak może stanowić poważne wyzwanie w konkursach klasyfikacyjnych z mocno niezrównoważoną zmienną docelową.

Aby sobie z tym poradzić, zaimplementuj strategię stratyfikowanego K-fold z podziałem według zmiennej docelowej. DataFrame train jest już dostępny w twoim środowisku pracy.

Instrukcje

100 XP
  • Utwórz obiekt StratifiedKFold z 3 foldami i włączonym mieszaniem.
  • Iteruj po każdym podziale za pomocą obiektu str_kf. Stratyfikacja opiera się na kolumnie "interest_level".
  • Dla każdego podziału wybierz foldy treningowe i testowe, używając train_index i test_index.