Meerdere variabelen in een logistisch regressiemodel
De interpretatie van een enkele parameter blijft geldig wanneer je meerdere variabelen in een model opneemt. Als je meerdere variabelen opneemt en vraagt om de interpretatie wanneer een bepaalde variabele verandert, ga je ervan uit dat de andere variabelen constant blijven, ofwel ongewijzigd. Daar is een mooi Latijns begrip voor: ceteris paribus, wat letterlijk "de rest gelijk houdend" betekent.
Om een logistisch regressiemodel met meerdere variabelen te bouwen, kun je het +-teken gebruiken om variabelen toe te voegen. Je formule ziet er ongeveer zo uit:
y ~ x1 + ... + xk
Bij het evalueren van het model zijn er een aantal zaken om op te letten. Je hebt al naar de parameterwaarden gekeken, maar dat is niet het enige dat telt. Ook belangrijk is de statistische significantie van een bepaalde parameterinschatting. De significantie van een parameter wordt vaak aangeduid als een p-waarde, maar in een modeluitvoer zie je dit weergegeven als Pr(>|t|). In glm wordt zwakke significantie aangeduid met een "." en zeer sterke significantie met "***". Als een parameter niet significant is, betekent dit dat je niet kunt aantonen dat deze parameter significant verschilt van 0. Statistische significantie is belangrijk. In het algemeen heeft het alleen zin om het effect op betalingsachterstand te interpreteren voor significante parameters.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in R
Oefeninstructies
- Maak een logistisch regressiemodel met de functie
glm()en detraining_set. Neem de variabelenage,ir_cat,grade,loan_amntenannual_incop. Noem dit modellog_model_multi. - Haal de significantieniveaus op met
summary()in combinatie met je model. In de volgende oefening ga je dieper in op wat significantieniveaus betekenen!
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Build the logistic regression model
# Obtain significance levels using summary()