Rozdělení datové sady

Před vytvořením trénovací a testovací sady je potřeba nastavit seed pomocí funkce set.seed(). Seed určuje výchozí bod pro generování náhodných čísel, takže při každém spuštění kódu dostaneš stejný výsledek. Výhoda je zřejmá – kdokoli může reprodukovat přesně stejné trénovací a testovací sady, pokud použije stejný seed.

Funkcí sample() pak náhodně přiřadíš pozorování do trénovací a testovací sady.

V tomto cvičení využiješ první dva argumenty funkce sample():

První argument je vektor, ze kterého se budou hodnoty vzorkovat. Náhodně vybereme čísla řádků jako indexy; pro vytvoření vektoru čísel řádků použij 1:nrow(loan_data).
Druhý argument udává počet položek k výběru. Zadáme 2 / 3 * nrow(loan_data), protože nejdříve sestavujeme trénovací sadu.

Toto cvičení je součástí kurzu

Modelování kreditního rizika v R

Zobrazit kurz

Pokyny k cvičení

Nastav seed na hodnotu 567 pomocí funkce set.seed().
Ulož indexy řádků trénovací sady do objektu index_train. Použij funkci sample() s prvním a druhým argumentem, jak jsme popsali výše.
Vytvoř trénovací sadu tak, že z datové sady loan_data vybereš řádky s indexy uloženými v index_train. Výsledek ulož do training_set.
Testovací sada obsahuje řádky, které nejsou v index_train. Zkopíruj kód použitý pro vytvoření trénovací sady, ale bezprostředně před index_train uvnitř hranatých závorek přidej znaménko mínus (-). Výsledek ulož do test_set.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Set seed of 567


# Store row numbers for training set: index_train


# Create training set: training_set
training_set <- loan_data[___, ]

# Create test set: test_set

Upravit a spustit kód