Modelcoëfficiënten verkennen

Je gaat de modelprestatie nu vanuit een andere invalshoek verkennen, en alleen op de trainingsgegevens. In de vorige les heb je geleerd dat niet alle modelcoëfficiënten statistisch significant zijn en dat je naar de modelsamenvattingstabel moet kijken om hun significantie te beoordelen. Gelukkig biedt de bibliotheek statsmodels deze functionaliteit. Zodra je de modelsamenvattingstabel hebt afgedrukt, bekijk je welke variabelen een p-waarde lager dan 0,05 (dus lager dan 5%) hebben om zeker te weten dat de coëfficiënt significant is.

De trainingsfeatures zijn geladen als train_X, en de doelvariabele als train_Y, die is omgezet naar een numpy-array.

Deze oefening maakt deel uit van de cursus

Machine Learning voor marketing in Python

Bekijk cursus

Oefeninstructies

Importeer de module statsmodels.api.
Initialiseer een modelinstance op de trainingsgegevens met de functie OLS().
Fit het model.
Print de modelsamenvatting met de methode .summary().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import `statsmodels.api` module
import ___.___ as sm

# Initialize model instance on the training data
olsreg = sm.___(train_Y, train_X)

# Fit the model
olsreg = olsreg.___()

# Print model summary
print(olsreg.___())

Code bewerken en uitvoeren