1. Learn
  2. /
  3. Courses
  4. /
  5. Supervised Learning in R: Regression

Connected

Exercise

Generování náhodného rozdělení na trénovací a testovací sadu

V několika následujících cvičeních budeš pracovat s daty mpg z balíčku ggplot2. Tato data popisují vlastnosti různých značek a modelů automobilů z různých ročníků. Cílem je předpovědět spotřebu paliva ve městě na základě spotřeby na dálnici.

V tomto cvičení rozdělíš data mpg na trénovací sadu mpg_train (75 % dat) a testovací sadu mpg_test (25 % dat). Jedním ze způsobů, jak to provést, je vygenerovat sloupec rovnoměrně rozložených náhodných čísel mezi 0 a 1 pomocí funkce runif() (dokumentace).

Máš-li datovou sadu dframe o velikosti \(N\) a chceš náhodnou podmnožinu o přibližné velikosti \(100 * X\)\% z \(N\) (kde \(X\) je číslo mezi 0 a 1), postupuj takto:

  1. Vygeneruj vektor rovnoměrně rozložených náhodných čísel: gp = runif(N).
  2. dframe[gp < X,] bude mít přibližně správnou velikost.
  3. dframe[gp >= X,] bude jeho doplněk.

Instructions

100 XP
  • Pomocí funkce nrow (dokumentace) zjisti počet řádků v datovém rámci mpg. Tento počet ulož do proměnné N a vypiš ho.
  • Vypočítej, kolik řádků odpovídá přibližně 75 % z N. Výsledek ulož do proměnné target a vypiš ho.
  • Pomocí runif() vygeneruj vektor N rovnoměrně rozložených náhodných čísel s názvem gp.
  • Pomocí vektoru gp rozděl data mpg na mpg_train a mpg_test (přičemž mpg_train by měla obsahovat přibližně 75 % dat).
  • Pomocí nrow() ověř velikost sad mpg_train a mpg_test. Odpovídají přibližně očekávaným hodnotám?