Calculer des prédictions
En pratique, on souhaite souvent utiliser la régression logistique ajustée pour estimer des probabilités et construire des intervalles de confiance pour ces estimations. En utilisant le jeu de données wells et le modèle 'switch ~ arsenic', supposons que vous disposiez de nouvelles observations wells_test qui ne faisaient pas partie de l’échantillon d’entraînement et que vous vouliez prédire la probabilité de changer pour le puits sécurisé le plus proche.
Vous allez le faire à l’aide de la méthode .predict().
Notez que .predict() prend plusieurs arguments :
exog: nouvelles observations (jeu de test)transform = True: applique au jeu de données la formule de l’ajustementy ~ x.
Si exog n’est pas défini, les probabilités sont calculées pour le jeu d’entraînement.
Le modèle wells_fit et les jeux de données wells et wells_test sont préchargés dans l’espace de travail.
Cet exercice fait partie du cours
Modèles linéaires généralisés en Python
Instructions
- En utilisant le modèle ajusté
wells_fit, calculez la prédiction sur les données de testwells_testet enregistrez-la dansprediction. - Ajoutez
predictionau dataframe existantwells_testet nommez la colonneprediction. - À l’aide de
print(), affichez les 5 premières lignes dewells_testavec les colonnesswitch,arsenicetprediction. Utilisez la fonction pandashead()pour ne voir que les 5 premières lignes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Compute predictions for the test sample wells_test and save as prediction
prediction = ____.predict(exog = ____)
# Add prediction to the existing data frame wells_test and assign column name prediction
____[____] = ____
# Examine the first 5 computed predictions
print(____[[____, ____, ____]].head())