1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning s balíčkem caret v R

Connected

cvičení

Vyzkoušej rozdělení 60/40

Jak jsi viděl/a ve videu, v této kapitole budeš pracovat s datasetem Sonar a rozdělíš ho na 60% trénovací a 40% testovací sadu. Pojďme si rozdělení na trénovací a testovací data procvičit ještě jednou, ať ho máš pevně v ruce. Připomeň si, že funkce sample() ti vrátí náhodnou permutaci indexů řádků datasetu – to se hodí při vytváření trénovací a testovací sady, například:

n_obs <- nrow(my_data)
permuted_rows <- sample(n_obs)

Tyto indexy pak použij k náhodnému přeuspořádání datasetu, například:

my_data <- my_data[permuted_rows, ]

Jakmile máš dataset náhodně seřazený, odděl prvních 60 % jako trénovací sadu a zbývajících 40 % jako testovací sadu.

Pokyny

100 XP
  • Zjisti počet pozorování (řádků) v datasetu Sonar a výsledek ulož do proměnné n_obs.
  • Náhodně přeuspořádej indexy řádků datasetu Sonar a výsledek ulož do permuted_rows.
  • Pomocí permuted_rows náhodně přeuspořádej řádky datasetu Sonar a výsledek ulož jako Sonar_shuffled.
  • Urči správný řádek pro rozdělení v poměru 60/40 a jeho číslo ulož jako split.
  • Ulož prvních 60 % datasetu Sonar_shuffled jako trénovací sadu.
  • Ulož posledních 40 % datasetu Sonar_shuffled jako testovací sadu.