1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modelování kreditního rizika v R

Connected

cvičení

Finální strom s rozšířenými možnostmi

V tomto cvičení použiješ několik dalších argumentů, o kterých jsme mluvili ve videu. Upravíme některá nastavení funkce rpart.control() a přidáme váhy pomocí argumentu weights ve funkci rpart(). Vektor case_weights je už připravený a načtený v tvém pracovním prostředí. Obsahuje váhu 1 pro záznamy bez defaultu v trénovací sadě a váhu 3 pro záznamy s defaultem. Díky vyšším vahám pro default model přikládá větší důležitost správné klasifikaci defaultů.

Pokyny

100 XP
  • Nastav seed na hodnotu 345.
  • Doplň připravený kód tak, aby se case_weights předalo argumentu weights ve funkci rpart().
  • Nastav minimální počet pozorování potřebných k rozdělení uzlu na 5 a minimální počet pozorování v listových uzlech na 2 – použij argumenty minsplit a minbucket ve funkci rpart.control.
  • Pomocí funkce plotcp() zjisti, při jaké hodnotě lze minimalizovat chybu odhadnutou křížovou validací.
  • Pomocí which.min() najdi řádek s nejmenší hodnotou "xerror" v tree_weights$cp. Výsledek ulož do proměnné index.
  • Pomocí připraveného kódu vyber hodnotu cp, při které je chyba z křížové validace nejnižší.
  • Ořež strom s použitím parametru složitosti odpovídajícího minimální chybě z křížové validace. Ořezaný strom ulož do ptree_weights.
  • Vizualizuj ořezaný strom pomocí funkce prp(). Přidej druhý argument extra a nastav ho na hodnotu 1.