1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

Cvičení

One-Hot encoding

Problém s label encodingem spočívá v tom, že implicitně předpokládá závislost pořadí mezi kategoriemi. Pojďme proto změnit metodu kódování pro příznaky "RoofStyle" a "CentralAir" na one-hot encoding. DataFramy train a test z Kaggle soutěže House Prices jsou opět k dispozici v tvém pracovním prostředí.

Měj na paměti, že u binárních příznaků (kategorické příznaky pouze se dvěma kategoriemi) se doporučuje použít výhradně label encoder.

Tvým cílem je zjistit, který z uvedených příznaků není binární, a aplikovat one-hot encoding právě na něj.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Zjisti rozložení příznaků "RoofStyle" a "CentralAir" pomocí metody value_counts() z knihovny pandas.