Podvzorkování trénovací sady

Ve videu jsi viděl/a, že problém nevyvážených dat lze řešit pomocí pod- nebo převzorkování. Trénovací sada už byla za tebe podvzorkována tak, aby 1/3 tvořily defaulty a 2/3 non-defaulty. Výsledná datová sada je dostupná v tvém pracovním prostředí pod názvem undersampled_training_set a obsahuje méně pozorování (6 570 místo 19 394). V tomto cvičení vytvoříš rozhodovací strom pomocí podvzorkované datové sady.

Všimneš si, že stromy v tomto i dalším cvičení jsou velmi velké – tak velké, že je prakticky nelze přečíst. Teď si s tím hlavu nelám, v příštím videu ti ukážeme, jak je zmenšit na přehlednou velikost!

Balíček rpart je za tebe nainstalovaný. Načti ho do svého pracovního prostředí.
Uprav zadaný kód tak, aby byl rozhodovací strom sestrojen pomocí podvzorkované trénovací sady místo training_set. Přidej také argument control = rpart.control(cp = 0.001). cp (parametr komplexity) určuje prahovou hodnotu pro snížení celkové míry chyby u každého rozdělení. Pokud podmínka cp není splněna, další rozdělení se už neprovádějí. Výchozí hodnota cp je 0,01, ale u složitějších problémů se doporučuje tuto hodnotu uvolnit.
Vykresli rozhodovací strom pomocí funkce plot a názvu objektu stromu. Přidej druhý argument uniform = TRUE, aby měly větve stejnou délku.
Předchozí příkaz vytvoří strom s uzly a hranami, ale bez jakéhokoli textu (tzv. „popisků"). Pomocí funkce text() s jediným argumentem tree_undersample popisky přidej.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení