1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modelování kreditního rizika v R

Connected

cvičení

Podvzorkování trénovací sady

Ve videu jsi viděl/a, že problém nevyvážených dat lze řešit pomocí pod- nebo převzorkování. Trénovací sada už byla za tebe podvzorkována tak, aby 1/3 tvořily defaulty a 2/3 non-defaulty. Výsledná datová sada je dostupná v tvém pracovním prostředí pod názvem undersampled_training_set a obsahuje méně pozorování (6 570 místo 19 394). V tomto cvičení vytvoříš rozhodovací strom pomocí podvzorkované datové sady.

Všimneš si, že stromy v tomto i dalším cvičení jsou velmi velké – tak velké, že je prakticky nelze přečíst. Teď si s tím hlavu nelám, v příštím videu ti ukážeme, jak je zmenšit na přehlednou velikost!

Pokyny

100 XP
  • Balíček rpart je za tebe nainstalovaný. Načti ho do svého pracovního prostředí.
  • Uprav zadaný kód tak, aby byl rozhodovací strom sestrojen pomocí podvzorkované trénovací sady místo training_set. Přidej také argument control = rpart.control(cp = 0.001). cp (parametr komplexity) určuje prahovou hodnotu pro snížení celkové míry chyby u každého rozdělení. Pokud podmínka cp není splněna, další rozdělení se už neprovádějí. Výchozí hodnota cp je 0,01, ale u složitějších problémů se doporučuje tuto hodnotu uvolnit.
  • Vykresli rozhodovací strom pomocí funkce plot a názvu objektu stromu. Přidej druhý argument uniform = TRUE, aby měly větve stejnou délku.
  • Předchozí příkaz vytvoří strom s uzly a hranami, ale bez jakéhokoli textu (tzv. „popisků"). Pomocí funkce text() s jediným argumentem tree_undersample popisky přidej.