Analyseer de samenvatting van het lineaire model
Het analyseren van de prestaties van de verschillend geïmputeerde modellen is een van de belangrijkste taken bij het omgaan met missende data. Het bepaalt op welk type geïmputeerde DataFrame je kunt vertrouwen. Voor de analyse kun je een lineair regressiemodel fitten op het geïmputeerde DataFrame en verschillende parameters controleren die de keuze voor het imputatietype beïnvloeden.
In deze oefening is het DataFrame diabetes_cc al ingeladen; dit is de complete-case-versie van het diabetes-DataFrame. De complete case dient als basis voor vergelijking met andere geïmputeerde DataFrames. Je gebruikt het pakket statsmodels.api, geladen als sm, om een lineair regressiemodel te maken en samenvattingen te genereren.
Deze oefening maakt deel uit van de cursus
Omgaan met ontbrekende gegevens in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Add constant to X and set X & y values to fit linear model
X = sm.add_constant(___)
y = ___
lm = sm.OLS(y, X).fit()