1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning s balíčkem caret v R

Connected

cvičení

Náhodné seřazení datového rámce

Jedním ze způsobů, jak rozdělit dataset na trénovací a testovací část, je náhodné přeuspořádání dat a jejich následné rozdělení do dvou skupin. Tím zajistíš, že obě části jsou náhodné vzorky a že žádné zkreslení dané původním pořadím dat (například pokud byl dataset seřazen podle ceny nebo velikosti) se nepřenese do trénovacích ani testovacích vzorků. Představ si to jako zamíchání nové balíčku hracích karet před rozdáním.

Nejprve nastav náhodný seed, aby byly tvoje výsledky reprodukovatelné a pokaždé, když spustíš skript, získáš stejné náhodné rozdělení:

set.seed(42)

Potom pomocí funkce sample() zamíchej indexy řádků datasetu diamonds. Tyto indexy pak použiješ k přeuspořádání datasetu.

rows <- sample(nrow(diamonds))

Nakonec použij tento náhodný vektor k přeuspořádání datasetu diamonds:

diamonds <- diamonds[rows, ]

Pokyny

100 XP
  • Nastav náhodný seed na hodnotu 42.
  • Vytvoř vektor indexů řádků s názvem rows.
  • Náhodně přeuspoř datový rámec diamonds a výsledek ulož do proměnné shuffled_diamonds.