Calculer des prédictions

En pratique, on souhaite souvent utiliser la régression logistique ajustée pour estimer des probabilités et construire des intervalles de confiance pour ces estimations. En utilisant le jeu de données wells et le modèle 'switch ~ arsenic', supposons que vous disposiez de nouvelles observations wells_test qui ne faisaient pas partie de l’échantillon d’entraînement et que vous vouliez prédire la probabilité de changer pour le puits sécurisé le plus proche.

Vous allez le faire à l’aide de la méthode .predict().

Notez que .predict() prend plusieurs arguments :

exog : nouvelles observations (jeu de test)
transform = True : applique au jeu de données la formule de l’ajustement y ~ x.

Si exog n’est pas défini, les probabilités sont calculées pour le jeu d’entraînement.

Le modèle wells_fit et les jeux de données wells et wells_test sont préchargés dans l’espace de travail.

Cet exercice fait partie du cours

<cours>Modèles linéaires généralisés en Python</cours>

Voir le cours

Instructions de l’exercice

En utilisant le modèle ajusté wells_fit, calculez la prédiction sur les données de test wells_test et enregistrez-la dans prediction.
Ajoutez prediction au dataframe existant wells_test et nommez la colonne prediction.
À l’aide de print(), affichez les 5 premières lignes de wells_test avec les colonnes switch, arsenic et prediction. Utilisez la fonction pandas head() pour ne voir que les 5 premières lignes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Compute predictions for the test sample wells_test and save as prediction
prediction = ____.predict(exog = ____)

# Add prediction to the existing data frame wells_test and assign column name prediction
____[____] = ____

# Examine the first 5 computed predictions
print(____[[____, ____, ____]].head())

Modifier et exécuter le code