1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Preprocessing pro Machine Learning v Pythonu

Connected

cvičení

Stratifikované vzorkování

Teď už víš, že rozložení štítků tříd ve sloupci category_desc datasetu volunteer není rovnoměrné. Pokud chceš natrénovat model pro predikci category_desc, je důležité, aby byl trénován na datech reprezentujících celý dataset. Právě k tomu slouží stratifikované vzorkování!

Pokyny

100 XP
  • Vytvoř DataFrame příznaků X ze všech sloupců kromě category_desc.
  • Vytvoř DataFrame štítků y ze sloupce category_desc.
  • Rozděl X a y na trénovací a testovací sadu tak, aby bylo rozložení tříd ve štítcích v obou sadách stejné.
  • Vypiš štítky a jejich počty z y_train pomocí .value_counts().