Logistische regressie-uitvoer vergelijken

Bij het bouwen van modellen wil je meer observaties hebben dan parameters die voor het model worden geschat. Deze extra variabelen heten vrijheidsgraden.

Een model met te weinig observaties kan overfit raken, of zelfs niet te fitten zijn (soms singular genoemd). Daarnaast helpt het bekijken van de vrijheidsgraden je om je data en code te dubbelchecken. Bijvoorbeeld: een verschil tussen de vrijheidsgraden en het aantal observaties waarvan jij denkt dat je ze hebt, kan erop wijzen dat je data verder opgeschoond moet worden, dat er een bug in je code zit, of dat er een modelleerfout is.

De brede versus lange invoerformaten voor glm() leveren verschillende vrijheidsgraden op, omdat het verschil in het aantal rijen in de data het model doet denken dat er een verschil is in het aantal observaties.

In de vorige oefeningen heb je een logistische regressie gefit met drie verschillende invoeropties. Deze zijn voor je ingeladen als lr_1, lr_2 en lr_3. Bekijk de samenvattingen van deze drie modellen.

Hoe verschillen de vrijheidsgraden tussen de modellen?

Deze oefening maakt deel uit van de cursus

Generalized Linear Models in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Begin oefening