1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modelování kreditního rizika v R

Connected

cvičení

Výpočet zisku pro strom

Ve videu jsi viděl/a, jak se míra Gini používá k nalezení optimálního rozdělení stromu. Teď vypočítáš zisk pro strom načtený ve svém pracovním prostoru.

Datová sada obsahuje 500 případů, z nichž 89 jsou defaulty. To vedlo k hodnotě Gini 0,292632 v kořenovém uzlu. Jako připomínka: Gini daného uzlu = 2 * podíl defaultů v tomto uzlu * podíl non-defaultů v tomto uzlu. Podívej se na následující kód pro osvěžení.

gini_root <- 2 * (89 / 500) * (411 / 500)

Tyto hodnoty Gini použiješ k výpočtu zisku listových uzlů vzhledem ke kořenovému uzlu. Podívej se na následující kód, který ti ukáže, jak hodnoty Gini využít k výpočtu zisku uzlu.

Gain = gini_root - (prop(cases left leaf) * gini_left) - (prop(cases right leaf * gini_right))

Vypočítej hodnotu Gini pro levý a pravý listový uzel a zisk obou listových uzlů vzhledem ke kořenovému uzlu. Objekt obsahující strom se jmenuje small_tree.

Pokyny

100 XP
  • Výpočet Gini pro kořenový uzel je již zadán.
  • Vypočítej hodnotu Gini pro levý listový uzel.
  • Vypočítej hodnotu Gini pro pravý listový uzel.
  • Vypočítej zisk jako rozdíl mezi Gini kořenového uzlu a váženými hodnotami Gini listových uzlů.
  • Informace o rozdělení v tomto stromu najdeš pomocí $split a objektu stromu small_tree. Místo gain se zde podívej na sloupec improve. improve je alternativní metrika pro zisk – získáš ji jednoduše vynásobením zisku počtem případů v datové sadě. Ověř, že objekt improve (kód je zadán) má stejnou hodnotu jako small_tree$split.