1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to Predictive Analytics in Python

Connected

cvičení

Rozdělení dat

Aby bylo možné model správně vyhodnotit, lze data rozdělit na trénovací a testovací sadu. Trénovací sada obsahuje data, na kterých se model učí, a testovací sada slouží k jeho vyhodnocení. Toto rozdělení probíhá náhodně – pokud je ale výskyt cílové hodnoty nízký, může být nutné použít stratifikaci, tedy zajistit, aby trénovací i testovací sada obsahovaly stejné procento cílových hodnot.

V tomto cvičení rozdělíš data se stratifikací a ověříš, že trénovací i testovací sada mají stejný podíl cílových hodnot. Metoda train_test_split je již naimportována a DataFramy X a y jsou dostupné v tvém pracovním prostředí.

Pokyny

100 XP
  • Rozděl tyto DataFramy pomocí metody train_test_split se stratifikací. Zajisti, aby trénovací a testovací sada byly stejně velké a měly stejný podíl cílových hodnot.
  • Vypočítej podíl cílových hodnot v trénovací sadě. Jde o počet cílových hodnot v trénovací sadě dělený celkovým počtem pozorování v trénovací sadě.
  • Vypočítej podíl cílových hodnot v testovací sadě.