1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modelování kreditního rizika v R

Connected

cvičení

Oříznutí stromu se změněnými apriorními pravděpodobnostmi

Ve videu sis ukázal/a, že oříznutí stromu je nezbytné, abychom se vyhnuli přetrénování. V předchozích cvičeních vznikly poměrně rozsáhlé stromy – teď přijde čas nabyté znalosti využít v praxi a oříznout strom sestavený se změněnými apriorními pravděpodobnostmi. Balíček rpart je v tvém pracovním prostředí už načten.

Nejdřív nastavíš seed, aby byly výsledky reprodukovatelné – jak bylo zmíněno ve videu –, protože budeš pracovat s výsledky křížové validace. Ty zahrnují prvek náhodnosti, takže se mohou při opětovném spuštění funkce s jiným seedem mírně lišit.

V tomto cvičení se naučíš určit, který parametr složitosti (CP) minimalizuje chybu křížové validace, a podle této hodnoty strom oříznout.

Pokyny

100 XP
  • tree_prior je načten v tvém pracovním prostředí.
  • Pomocí plotcp() vizualizuj chybu křížové validace (X-val Relative Error) v závislosti na parametru složitosti pro tree_prior.
  • Pomocí printcp() vypiš tabulku s informacemi o CP, větvích a chybách. Zkus v ní identifikovat, které větvení odpovídá minimální chybě křížové validace v tree_prior.
  • Pomocí which.min() zjisti, který řádek tabulky tree_prior$cptable má minimální chybu křížové validace "xerror". Výsledek ulož do proměnné index.
  • Vytvoř proměnnou tree_min tak, že z tabulky tree_prior$cptable vybereš hodnotu na daném indexu ve sloupci "CP".
  • Pomocí funkce prune() získej oříznutý strom. Pojmenuj ho ptree_prior.
  • Balíček rpart.plot je v tvém pracovním prostředí načten. Vizualizuj oříznutý strom pomocí funkce prp() (výchozí nastavení).