1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

Cvičení

Mean target encoding

Nejdřív vytvoříš funkci, která implementuje mean target encoding. Budeš potřebovat dva následující kroky:

  1. Vypočítej průměr na trénovacích datech a aplikuj ho na testovací data
  2. Rozděl trénovací data na K foldů. Pro každý fold vypočítej out-of-fold průměr a aplikuj ho na daný fold

Každý z těchto kroků bude implementován v samostatné funkci: test_mean_target_encoding() a train_mean_target_encoding().

Finální funkce mean_target_encoding() přijímá jako argumenty: trénovací a testovací DataFramy, název kategorického sloupce, který má být zakódován, název cílového sloupce a vyhlazovací parametr alpha. Vrací dvě hodnoty: nový příznak pro trénovací a testovací DataFrame.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Aby ses vyhnul/a přeučení, přidej parametr \(\alpha\) do jmenovatele při výpočtu train_statistics.
  • Aby byly ošetřeny nové kategorie v testovacích datech, předej globální průměr jako argument metodě fillna().