1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

cvičení

Stratifikovaný K-fold

Jak sis právě všiml/a, distribuce cílové proměnné se mezi jednotlivými foldy poměrně liší – kvůli náhodným rozdělením. Pro tuto konkrétní soutěž to není zásadní problém, ale u klasifikačních soutěží s výrazně nevyváženou cílovou proměnnou to může být problematické.

Aby ses tomu vyhnul/a, implementuj strategii stratifikovaného K-foldu se stratifikací na cílové proměnné. DataFrame train už máš v pracovním prostoru k dispozici.

Pokyny

100 XP
  • Vytvoř objekt StratifiedKFold se 3 foldy a povoleným náhodným mícháním.
  • Projdi každé rozdělení pomocí objektu str_kf. Stratifikace je založena na sloupci "interest_level".
  • Pro každé rozdělení vyber trénovací a testovací foldy pomocí train_index a test_index.