CommencerCommencer gratuitement

Calcul de la matrice de confusion

Une matrice de confusion (parfois appelée tableau de confusion) est la base de toutes les mesures de performance pour les modèles avec une réponse catégorielle (comme une régression logistique). Il contient les comptes de chaque paire réponse réelle/réponse prédite. Dans ce cas, où il y a deux réponses possibles (désabonnement ou non désabonnement), il y a quatre résultats globaux.

  1. Vrai positif : Le client s'est désabonné et le modèle l'avait prévu.
  2. Faux positif : Le client ne s'est pas désabonné, mais le modèle avait prédit qu'il le ferait.
  3. Vrai négatif : Le client ne s'est pas désabonné et le modèle avait prévu qu'il ne le ferait pas.
  4. Faux négatif : Le client s'est désabonné, alors que le modèle prévoyait qu'il ne le ferait pas.

churn et mdl_churn_vs_relationship sont disponibles.

Cet exercice fait partie du cours

Introduction à la régression avec statsmodels en Python

Afficher le cours

Instructions

  • Obtenez les réponses effectives en subdivisant la colonne has_churned de l'ensemble de données. Affectez à actual_response.
  • Obtenez les réponses prédites "les plus probables" du modèle. Affectez à predicted_response.
  • Créez un DataFrame à partir de actual_response et predicted_response. Affectez à outcomes.
  • Imprimez outcomes sous la forme d'un tableau de nombres, représentant la matrice de confusion. Cela a été fait pour vous.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get the actual responses
actual_response = ____

# Get the predicted responses
predicted_response = ____

# Create outcomes as a DataFrame of both Series
outcomes = pd.DataFrame({____,
                         ____})

# Print the outcomes
print(outcomes.value_counts(sort = False))
Modifier et exécuter le code