1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modelowanie ryzyka kredytowego w R

Connected

ćwiczenie

Wiele zmiennych w modelu regresji logistycznej

Interpretacja pojedynczego parametru pozostaje taka sama, gdy do modelu dodajemy kolejne zmienne. Jeśli w modelu z wieloma zmiennymi chcemy zinterpretować wpływ jednej z nich, zakładamy, że pozostałe zmienne są stałe – niezmienione. Istnieje nawet łacińskie wyrażenie na to zjawisko: ceteris paribus, co dosłownie oznacza „przy pozostałych czynnikach niezmienionych".

Aby zbudować model regresji logistycznej z wieloma zmiennymi, użyj znaku + do ich dodawania. Formuła będzie wyglądać następująco:

y ~ x1 + ... + xk

Przy ocenie modelu warto zwrócić uwagę na kilka kwestii. Przyjrzałeś się już wartościom parametrów, ale to nie jedyna ważna informacja. Istotne jest również istotność statystyczna danego oszacowania parametru. Często jest ona opisywana jako p-wartość, choć w wynikach modelu znajdziesz ją pod oznaczeniem Pr(>|t|). W funkcji glm słaba istotność jest oznaczana symbolem ".", a bardzo silna – "***". Jeśli dany parametr nie jest istotny statystycznie, nie możesz być pewien, że różni się on istotnie od zera. Istotność statystyczna ma duże znaczenie – co do zasady interpretowanie wpływu na ryzyko niewywiązania się ze zobowiązań ma sens tylko dla parametrów istotnych statystycznie.

Instrukcje

100 XP
  • Utwórz model regresji logistycznej za pomocą funkcji glm() i zbioru training_set. Uwzględnij zmienne age, ir_cat, grade, loan_amnt i annual_inc. Nazwij ten model log_model_multi.
  • Uzyskaj poziomy istotności, używając funkcji summary() w połączeniu z tym modelem. W następnym ćwiczeniu dokładniej przyjrzysz się temu, co oznaczają poziomy istotności!