Vytváření náhodných testovacích datasetů

Než vytvoříš sofistikovanější model pro půjčky, je důležité vyčlenit část dat, abys mohl/a simulovat, jak dobře bude model předpovídat výsledky budoucích žadatelů o půjčku.

Jak ukazuje následující obrázek, na trénování modelu můžeš použít 75 % pozorování a zbývajících 25 % si nechat na testování.

Funkce sample() umožňuje vygenerovat náhodný výběr řádků, které budou součástí trénovací sady. Stačí zadat celkový počet pozorování a počet, kolik jich potřebuješ pro trénování.

Výsledný vektor ID řádků pak použij k rozdělení datasetu loans na trénovací a testovací část. Dataset loans máš k dispozici.

Pomocí funkce nrow() zjisti, kolik pozorování dataset loans obsahuje, a vypočítej počet řádků potřebných pro 75% vzorek.
Pomocí funkce sample() vytvoř celočíselný vektor ID řádků pro 75% vzorek. Prvním argumentem sample() je celkový počet řádků v datasetu, druhým je počet řádků, které potřebuješ v trénovací sadě.
Pomocí ID řádků vytvoř z dat loans trénovací dataset a ulož ho jako loans_train.
Znovu vyfiltruj data loans, tentokrát ale vyber všechny řádky, které nejsou v sample_rows. Výsledek ulož jako loans_test.

cvičení

Vytváření náhodných testovacích datasetů

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení