1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

Cvičení

K-fold křížová validace

Budeš pracovat s problémem binární klasifikace na podvzorku z Kaggle playground soutěže. Cílem této soutěže je předpovědět, zda slavný basketbalista Kobe Bryant proměnil koš, nebo konkrétní střelu minul.

Trénovací data jsou dostupná v tvém pracovním prostoru jako DataFrame bryant_shots. Obsahuje data o 10 000 střelách s jejich vlastnostmi a cílovou proměnnou "shot\_made\_flag" -- zda byl koš proměněn, nebo ne.

Jedním z příznaků v datech je "game_id" -- konkrétní zápas, ve kterém byla střela provedena. Celkem je zde 541 různých zápasů, takže pracuješ s kategorickým příznakem s vysokou kardinalitou. Zakódujme ho pomocí cílového průměru!

Předpokládejme, že používáš 5-fold křížovou validaci a chceš vyhodnotit příznak zakódovaný průměrem cílové proměnné na lokální validaci.

Pokyny

100 XP
  • Abys toho dosáhl/a, je potřeba zopakovat postup kódování pro kategorický příznak "game_id" zvlášť v rámci každého rozdělení foldu. Tvým cílem je doplnit všechny chybějící parametry volání funkce mean_target_encoding() uvnitř každého rozdělení foldu.
  • Nezapomeň, že parametry train a test očekávají trénovací a testovací DataFramy.
  • Zatímco parametry target a categorical očekávají názvy cílové proměnné a kategorického příznaku, který má být zakódován.