1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

Cvičení

Nad rámec binární klasifikace

Binární klasifikace je samozřejmě jen jeden speciální případ. Target encoding lze použít pro jakýkoli typ cílové proměnné:

  • Pro binární klasifikaci se obvykle používá průměrné target encoding
  • Pro regresi lze průměr nahradit mediánem, kvartily apod.
  • Pro vícetrídní klasifikaci s N třídami vytvoříme N příznaků s průměrem cílové proměnné pro každou kategorii ve stylu one vs. all

Funkci mean_target_encoding(), kterou jsi vytvořil/a, lze použít pro libovolný výše uvedený typ cílové proměnné. Pojďme ji aplikovat na regresní problém na příkladu Kaggle soutěže House Prices.

Tvým úkolem je zakódovat kategorický příznak "RoofStyle" pomocí průměrného target encodingu. DataFrames train a test jsou již k dispozici v tvém pracovním prostředí.

Pokyny

100 XP
  • Doplň všechny chybějící parametry volání funkce mean_target_encoding(). Název cílové proměnné je "SalePrice". Nastav hyperparametr \(\alpha\) na hodnotu 10.
  • Nezapomeň, že parametry train a test očekávají DataFrames pro trénování a testování.
  • Parametry target a categorical pak očekávají názvy cílové proměnné a příznaku, který má být zakódován.