Calcul de la matrice de confusion
Une matrice de confusion (parfois appelée tableau de confusion) est la base de toutes les mesures de performance pour les modèles avec une réponse catégorielle (comme une régression logistique). Il contient les comptes de chaque paire réponse réelle/réponse prédite. Dans ce cas, où il y a deux réponses possibles (désabonnement ou non désabonnement), il y a quatre résultats globaux.
- Vrai positif : Le client s'est désabonné et le modèle l'avait prévu.
- Faux positif : Le client ne s'est pas désabonné, mais le modèle avait prédit qu'il le ferait.
- Vrai négatif : Le client ne s'est pas désabonné et le modèle avait prévu qu'il ne le ferait pas.
- Faux négatif : Le client s'est désabonné, alors que le modèle prévoyait qu'il ne le ferait pas.
churn
et mdl_churn_vs_relationship
sont disponibles.
Cet exercice fait partie du cours
Introduction à la régression avec statsmodels en Python
Instructions
- Obtenez les réponses effectives en subdivisant la colonne
has_churned
de l'ensemble de données. Affectez àactual_response
. - Obtenez les réponses prédites "les plus probables" du modèle. Affectez à
predicted_response
. - Créez un DataFrame à partir de
actual_response
etpredicted_response
. Affectez àoutcomes
. - Imprimez
outcomes
sous la forme d'un tableau de nombres, représentant la matrice de confusion. Cela a été fait pour vous.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Get the actual responses
actual_response = ____
# Get the predicted responses
predicted_response = ____
# Create outcomes as a DataFrame of both Series
outcomes = pd.DataFrame({____,
____})
# Print the outcomes
print(outcomes.value_counts(sort = False))