Generování náhodného rozdělení na trénovací a testovací sadu

V několika následujících cvičeních budeš pracovat s daty mpg z balíčku ggplot2. Tato data popisují vlastnosti různých značek a modelů automobilů z různých ročníků. Cílem je předpovědět spotřebu paliva ve městě na základě spotřeby na dálnici.

V tomto cvičení rozdělíš data mpg na trénovací sadu mpg_train (75 % dat) a testovací sadu mpg_test (25 % dat). Jedním ze způsobů, jak to provést, je vygenerovat sloupec rovnoměrně rozložených náhodných čísel mezi 0 a 1 pomocí funkce runif() (dokumentace).

Máš-li datovou sadu dframe o velikosti \(N\) a chceš náhodnou podmnožinu o přibližné velikosti \(100 * X\)\% z \(N\) (kde \(X\) je číslo mezi 0 a 1), postupuj takto:

Vygeneruj vektor rovnoměrně rozložených náhodných čísel: gp = runif(N).
dframe[gp < X,] bude mít přibližně správnou velikost.
dframe[gp >= X,] bude jeho doplněk.

Toto cvičení je součástí kurzu

Supervised Learning in R: Regression

Zobrazit kurz

Pokyny k cvičení

Pomocí funkce nrow (dokumentace) zjisti počet řádků v datovém rámci mpg. Tento počet ulož do proměnné N a vypiš ho.
Vypočítej, kolik řádků odpovídá přibližně 75 % z N. Výsledek ulož do proměnné target a vypiš ho.
Pomocí runif() vygeneruj vektor N rovnoměrně rozložených náhodných čísel s názvem gp.
Pomocí vektoru gp rozděl data mpg na mpg_train a mpg_test (přičemž mpg_train by měla obsahovat přibližně 75 % dat).
Pomocí nrow() ověř velikost sad mpg_train a mpg_test. Odpovídají přibližně očekávaným hodnotám?

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# mpg is available
summary(mpg)
dim(mpg)

# Use nrow to get the number of rows in mpg (N) and print it
(N <- ___)

# Calculate how many rows 75% of N should be and print it
# Hint: use round() to get an integer
(target <- ___)

# Create the vector of N uniform random variables: gp
gp <- ___

# Use gp to create the training set: mpg_train (75% of data) and mpg_test (25% of data)
mpg_train <- ___
mpg_test <- ___

# Use nrow() to examine mpg_train and mpg_test
___
___

Upravit a spustit kód