1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning v R: Klasifikace

Connected

cvičení

Zabránění přerůstání stromů

Strom natrénovaný na celé sadě dat žadatelů vyrostl do obrovských rozměrů a extrémní složitosti – měl stovky větvení a listy obsahující jen hrstku žadatelů. Takový strom by byl pro úvěrového poradce prakticky nečitelný.

Pomocí metod předběžného prořezávání pro předčasné zastavení růstu můžeš stromu zabránit, aby se stal příliš velkým a složitým. Podívej se, jak parametry rpart pro maximální hloubku stromu a minimální počet rozdělení ovlivňují výsledný strom.

Datové sady loans_train a loans_test jsou připraveny a balíček rpart je předem načten.

Instrukce 1/2

undefined XP
  • 1
    • Pomocí rpart() vytvoř model úvěrů na trénovacích datech se všemi dostupnými prediktory.
      • Nastav parametry modelu pomocí rpart.control() s hodnotami cp rovnou 0 a maxdepth rovnou 6.
    • Porovnej přesnost jednoduššího modelu na testovací sadě s původní přesností 58,3 %.
      • Nejprve vytvoř vektor predikcí pomocí funkce predict().
      • Porovnej predikce se skutečnými výsledky a pomocí mean() vypočítej přesnost.
  • 2

    V parametrech modelu odstraň maxdepth a přidej parametr minimálního rozdělení minsplit s hodnotou 500.