CommencerCommencer gratuitement

Calcul de la matrice de confusion

Une matrice de confusion (parfois appelée table de confusion) est la base de toutes les mesures de performance pour les modèles avec une réponse catégorielle (tels que la régression logistique). Elle contient le nombre de chaque paire réponse réelle-réponse prédite. Dans ce cas, où il existe deux réponses possibles (attrition ou non-attrition), il y a quatre résultats globaux.

  1. Vrai positif : le client a quitté l'entreprise et le modèle l'avait prédit.
  2. Faux positif : le client n'a pas quitté l'entreprise, mais le modèle avait prédit qu'il le ferait.
  3. Vrai négatif : le client n'a pas quitté l'entreprise et le modèle avait prédit qu'il ne le ferait pas.
  4. Faux négatif : le client a quitté l'entreprise, mais le modèle avait prédit qu'il ne le ferait pas.

churn et mdl_churn_vs_relationship sont disponibles.

Cet exercice fait partie du cours

Introduction à la régression avec statsmodels en Python

Afficher le cours

Instructions

  • Récupérez les réponses réelles en sélectionnant la colonne has_churned du jeu de données. Assignez-la à actual_response.
  • Récupérez les réponses « les plus probables » prédites par le modèle. Assignez-les à predicted_response.
  • Créez un DataFrame à partir de actual_response et predicted_response. Assignez-le à outcomes.
  • Affichez outcomes sous forme de tableau de décomptes, représentant la matrice de confusion. Ceci a été fait pour vous.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get the actual responses
actual_response = ____

# Get the predicted responses
predicted_response = ____

# Create outcomes as a DataFrame of both Series
outcomes = pd.DataFrame({____,
                         ____})

# Print the outcomes
print(outcomes.value_counts(sort = False))
Modifier et exécuter le code