Voorspelde waarden vergelijken
In de vorige oefening heb je zowel een lineair als een GLM (logistisch) regressiemodel gefit met de crab-gegevens, waarbij je y voorspelde met width. Met andere woorden: je wilde de kans voorspellen dat het vrouwtje een satellietkrab in de buurt heeft, gegeven haar breedte.
In deze oefening bekijk je de geschatte kansen (de output) van beide modellen verder en probeer je te bepalen of de lineaire fit geschikt is voor dit probleem.
Gebruikelijk is om het model te testen op nieuwe, niet eerder geziene data. Zo’n gegevensset heet een test-sample.
De test-sample is voor je aangemaakt en in de werkruimte geladen. Let op dat je testwaarden nodig hebt voor alle variabelen die in het model zitten, in dit voorbeeld width.
De crab-gegevensset is vooraf in de werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Generalized Linear Models in Python
Oefeninstructies
- Bekijk de
test-set metprint(). - Gebruik de
test-sample om geschatte kansen te berekenen met.predict()op het gefitte lineaire modelmodel_LMen sla dit op alspred_lm. Bereken ook geschatte kansen met.predict()op het gefitte GLM (logistische) modelmodel_GLMen sla dit op alspred_glm. - Combineer de voorspellingen van beide modellen met
pandasDataFrame()en sla dit op alspredictions. - Concateneer
testenpredictionsen sla dit op alsall_data. Bekijkall_datametprint().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# View test set
print(____)
# Compute estimated probabilities for linear model: pred_lm
____ = model_LM.____(____)
# Compute estimated probabilities for GLM model: pred_glm
____ = model_GLM.____(____)
# Create dataframe of predictions for linear and GLM model: predictions
____ = pd.DataFrame({'Pred_LM': ____, 'Pred_GLM': ____})
# Concatenate test sample and predictions and view the results
all_data = pd.concat([____, ____], axis = 1)
print(____)