Vyhýbání se nerovnoměrnému rozložení tříd

Některá data obsahují velmi nerovnoměrně zastoupené výsledky – například dataset vzácného onemocnění. Při náhodném rozdělení se může stát, že vznikne velmi nevhodný split. Představ si, že všechna vzácná pozorování skončí v testovací sadě a žádné v trénovací. To by celý tréninkový proces zhatilo!

Naštěstí funkce initial_split() nabízí řešení. V tomto cvičení si tuto situaci – tzv. nerovnoměrné rozložení tříd – prohlédneme zblízka a naučíme se ji řešit.

Kód pro vytvoření objektu rozdělení diabetes_split s 75 % trénovací a 25 % testovací sadou je již připraven.

1
- Zjisti podíl výsledků "yes" v trénovací a testovací sadě objektu diabetes_split.

2
- Uprav diabetes_split tak, aby používal stejný poměr trénovací a testovací sady, ale proměnná outcome byla v obou sadách zastoupena rovnoměrně.
- Zjisti podíl výsledků yes v obou datových sadách.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Instrukce 1/2

cvičení