cvičení

Stratifikované vzorkování

Teď už víš, že rozložení štítků tříd ve sloupci category_desc datasetu volunteer není rovnoměrné. Pokud chceš natrénovat model pro predikci category_desc, je důležité, aby byl trénován na datech reprezentujících celý dataset. Právě k tomu slouží stratifikované vzorkování!

Pokyny

100 XP

Vytvoř DataFrame příznaků X ze všech sloupců kromě category_desc.
Vytvoř DataFrame štítků y ze sloupce category_desc.
Rozděl X a y na trénovací a testovací sadu tak, aby bylo rozložení tříd ve štítcích v obou sadách stejné.
Vypiš štítky a jejich počty z y_train pomocí .value_counts().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení