1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modelování kreditního rizika v R

Connected

Cvičení

Rozdělení datové sady

Před vytvořením trénovací a testovací sady je potřeba nastavit seed pomocí funkce set.seed(). Seed určuje výchozí bod pro generování náhodných čísel, takže při každém spuštění kódu dostaneš stejný výsledek. Výhoda je zřejmá – kdokoli může reprodukovat přesně stejné trénovací a testovací sady, pokud použije stejný seed.

Funkcí sample() pak náhodně přiřadíš pozorování do trénovací a testovací sady.

V tomto cvičení využiješ první dva argumenty funkce sample():

  • První argument je vektor, ze kterého se budou hodnoty vzorkovat. Náhodně vybereme čísla řádků jako indexy; pro vytvoření vektoru čísel řádků použij 1:nrow(loan_data).
  • Druhý argument udává počet položek k výběru. Zadáme 2 / 3 * nrow(loan_data), protože nejdříve sestavujeme trénovací sadu.

Pokyny

100 XP
  • Nastav seed na hodnotu 567 pomocí funkce set.seed().
  • Ulož indexy řádků trénovací sady do objektu index_train. Použij funkci sample() s prvním a druhým argumentem, jak jsme popsali výše.
  • Vytvoř trénovací sadu tak, že z datové sady loan_data vybereš řádky s indexy uloženými v index_train. Výsledek ulož do training_set.
  • Testovací sada obsahuje řádky, které nejsou v index_train. Zkopíruj kód použitý pro vytvoření trénovací sady, ale bezprostředně před index_train uvnitř hranatých závorek přidej znaménko mínus (-). Výsledek ulož do test_set.