1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning s balíčkem caret v R

Connected

cvičení

Vyzkoušej rozdělení 80/20

Teď, když jsou data náhodně seřazená, můžeš prvních 80 % rozdělit do trénovací sady a posledních 20 % do testovací. Stačí zvolit bod rozdělení přibližně v 80 % délky datasetu:

split <- round(nrow(mydata) * 0.80)

Tento bod pak použij k oddělení prvních 80 % datasetu jako trénovací sady:

mydata[1:split, ]

A stejný bod poslouží i k vymezení testovací sady:

mydata[(split + 1):nrow(mydata), ]

Pokyny

100 XP
  • Urči index řádku pro rozdělení tak, aby bod rozdělení ležel přibližně v 80 % datasetu diamonds. Tento index pojmenuj split.
  • Vytvoř trénovací sadu s názvem train pomocí tohoto indexu.
  • Vytvoř testovací sadu s názvem test pomocí tohoto indexu.