Comparer les valeurs prédites

Dans l’exercice précédent, vous avez ajusté un modèle de régression linéaire et un GLM (logistique) à l’aide des données crab, en prédisant y avec width. Autrement dit, vous vouliez prédire la probabilité qu’une femelle ait un crabe satellite à proximité en fonction de sa largeur.

Dans cet exercice, vous allez examiner plus en détail les probabilités estimées (la sortie) des deux modèles et essayer de déterminer si l’ajustement linéaire convient au problème posé.

La pratique courante consiste à tester le modèle sur de nouvelles données, non vues. Un tel jeu de données est appelé échantillon de test.
L’échantillon test a été créé pour vous et chargé dans l’espace de travail. Notez que vous avez besoin de valeurs de test pour toutes les variables présentes dans le modèle, ce qui, dans cet exemple, est width.

Le jeu de données crab a été préchargé dans l’espace de travail.

Cet exercice fait partie du cours

Modèles linéaires généralisés en Python

Afficher le cours

Instructions

Utilisez print() pour afficher l’ensemble test.
En utilisant l’échantillon test, calculez les probabilités estimées avec .predict() sur le modèle linéaire ajusté model_LM et enregistrez-les dans pred_lm. Calculez aussi les probabilités estimées avec .predict() sur le GLM (logistique) ajusté model_GLM et enregistrez-les dans pred_glm.
À l’aide de pandas DataFrame(), combinez les prédictions des deux modèles et enregistrez-les dans predictions.
Concaténez test et predictions et enregistrez le résultat dans all_data. Affichez all_data avec print().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# View test set
print(____)

# Compute estimated probabilities for linear model: pred_lm
____ = model_LM.____(____)

# Compute estimated probabilities for GLM model: pred_glm
____ = model_GLM.____(____)

# Create dataframe of predictions for linear and GLM model: predictions
____ = pd.DataFrame({'Pred_LM': ____, 'Pred_GLM': ____})

# Concatenate test sample and predictions and view the results
all_data = pd.concat([____, ____], axis = 1)
print(____)

Modifier et exécuter le code