Rozdělení dat na trénovací a testovací sadu

V disciplinovaném workflow strojového učení je zásadní vyčlenit část dat (testovací data) a nevyužívat je při žádném rozhodování. Díky tomu můžeš na konci nezávisle vyhodnotit výkonnost svého modelu. Zbývající data, trénovací data, slouží k sestavení a výběru nejlepšího modelu.

V tomto cvičení použiješ balíček rsample k rozdělení dat gapminder na trénovací a testovací sadu.

Poznámka: Protože jde o náhodné rozdělení dat, je dobrým zvykem před rozdělením nastavit seed.

Toto cvičení je součástí kurzu

Machine Learning in the Tidyverse

Zobrazit kurz

Pokyny k cvičení

Rozděl data na 75 % trénovacích a 25 % testovacích pomocí funkce initial_split() a výsledek přiřaď do proměnné gap_split.
Pomocí funkce training() extrahuj trénovací datový rámec z gap_split.
Pomocí funkce testing() extrahuj testovací datový rámec z gap_split.
Ověř, že dimenze nových datových rámců odpovídají očekávání – použij funkci dim() na training_data a testing_data.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

set.seed(42)

# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)

# Extract the training data frame
training_data <- ___

# Extract the testing data frame
testing_data <- ___

# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)

Upravit a spustit kód