1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning v R: Klasifikace

Connected

cvičení

Vytváření náhodných testovacích datasetů

Než vytvoříš sofistikovanější model pro půjčky, je důležité vyčlenit část dat, abys mohl/a simulovat, jak dobře bude model předpovídat výsledky budoucích žadatelů o půjčku.

Jak ukazuje následující obrázek, na trénování modelu můžeš použít 75 % pozorování a zbývajících 25 % si nechat na testování.

Funkce sample() umožňuje vygenerovat náhodný výběr řádků, které budou součástí trénovací sady. Stačí zadat celkový počet pozorování a počet, kolik jich potřebuješ pro trénování.

Výsledný vektor ID řádků pak použij k rozdělení datasetu loans na trénovací a testovací část. Dataset loans máš k dispozici.

Pokyny

100 XP
  • Pomocí funkce nrow() zjisti, kolik pozorování dataset loans obsahuje, a vypočítej počet řádků potřebných pro 75% vzorek.
  • Pomocí funkce sample() vytvoř celočíselný vektor ID řádků pro 75% vzorek. Prvním argumentem sample() je celkový počet řádků v datasetu, druhým je počet řádků, které potřebuješ v trénovací sadě.
  • Pomocí ID řádků vytvoř z dat loans trénovací dataset a ulož ho jako loans_train.
  • Znovu vyfiltruj data loans, tentokrát ale vyber všechny řádky, které nejsou v sample_rows. Výsledek ulož jako loans_test.