1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Modelování kreditního rizika v R

Connected

cvičení

Zachování chybějících hodnot

V některých situacích je samotný fakt, že vstupní hodnota chybí, důležitou informací. Hodnoty NA lze pomocí hrubé klasifikace zařadit do samostatné kategorie „chybějící".

Hrubá klasifikace ti umožní data zjednodušit a zlepšit interpretovatelnost modelu. Spočívá v tom, že hodnoty seskupíš do binů pokrývajících určité rozsahy. Tuto techniku lze využít i k tomu, aby všechny hodnoty NA dostaly vlastní bin.

Ve videu jsme si hrubou klasifikaci ukázali na příkladu délky zaměstnání. Kód z tohoto příkladu je reprodukován v R skriptu vpravo a lze ho upravit pro hrubou klasifikaci proměnné int_rate.

Pokyny

100 XP
  • Uprav poskytnutý kód tak, aby hrubě klasifikoval proměnnou int_rate, a výsledek ulož do nové proměnné ir_cat.
    • Nejprve nahraď všechny výskyty loan_data$emp_cat za loan_data$ir_cat a všechny výskyty loan_data$emp_length za loan_data$int_rate.
    • Poté nastav biny na kategorie "0-8", "8-11", "11-13.5" a "13.5+" (místo původních "0-15","15-30","30-45" a "45+"). Použití operátorů > a <= zůstává stejné jako ve videu. Nezapomeň také změnit čísla v podmínkách (15, 30 a 45 nahraď hodnotami 8, 11 a 13,5).
  • Zobraz novou proměnnou ir_cat pomocí plot(loan_data$ir_cat).