Modelcoëfficiënten verkennen
Je gaat de modelprestatie nu vanuit een andere invalshoek verkennen, en alleen op de trainingsgegevens. In de vorige les heb je geleerd dat niet alle modelcoëfficiënten statistisch significant zijn en dat je naar de modelsamenvattingstabel moet kijken om hun significantie te beoordelen. Gelukkig biedt de bibliotheek statsmodels deze functionaliteit. Zodra je de modelsamenvattingstabel hebt afgedrukt, bekijk je welke variabelen een p-waarde lager dan 0,05 (dus lager dan 5%) hebben om zeker te weten dat de coëfficiënt significant is.
De trainingsfeatures zijn geladen als train_X, en de doelvariabele als train_Y, die is omgezet naar een numpy-array.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Importeer de module
statsmodels.api. - Initialiseer een modelinstance op de trainingsgegevens met de functie
OLS(). - Fit het model.
- Print de modelsamenvatting met de methode
.summary().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import `statsmodels.api` module
import ___.___ as sm
# Initialize model instance on the training data
olsreg = sm.___(train_Y, train_X)
# Fit the model
olsreg = olsreg.___()
# Print model summary
print(olsreg.___())