1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with Tree-Based Models in R

Connected

cvičení

Vyhýbání se nerovnoměrnému rozložení tříd

Některá data obsahují velmi nerovnoměrně zastoupené výsledky – například dataset vzácného onemocnění. Při náhodném rozdělení se může stát, že vznikne velmi nevhodný split. Představ si, že všechna vzácná pozorování skončí v testovací sadě a žádné v trénovací. To by celý tréninkový proces zhatilo!

Naštěstí funkce initial_split() nabízí řešení. V tomto cvičení si tuto situaci – tzv. nerovnoměrné rozložení tříd – prohlédneme zblízka a naučíme se ji řešit.

Kód pro vytvoření objektu rozdělení diabetes_split s 75 % trénovací a 25 % testovací sadou je již připraven.

Instrukce 1/2

undefined XP
  • 1
    • Zjisti podíl výsledků "yes" v trénovací a testovací sadě objektu diabetes_split.
  • 2
    • Uprav diabetes_split tak, aby používal stejný poměr trénovací a testovací sady, ale proměnná outcome byla v obou sadách zastoupena rovnoměrně.
    • Zjisti podíl výsledků yes v obou datových sadách.