Calcul de la matrice de confusion

Une matrice de confusion (parfois appelée table de confusion) est la base de toutes les mesures de performance pour les modèles avec une réponse catégorielle (tels que la régression logistique). Elle contient le nombre de chaque paire réponse réelle-réponse prédite. Dans ce cas, où il existe deux réponses possibles (attrition ou non-attrition), il y a quatre résultats globaux.

Vrai positif : le client a quitté l'entreprise et le modèle l'avait prédit.
Faux positif : le client n'a pas quitté l'entreprise, mais le modèle avait prédit qu'il le ferait.
Vrai négatif : le client n'a pas quitté l'entreprise et le modèle avait prédit qu'il ne le ferait pas.
Faux négatif : le client a quitté l'entreprise, mais le modèle avait prédit qu'il ne le ferait pas.

churn et mdl_churn_vs_relationship sont disponibles.

Cet exercice fait partie du cours

Introduction à la régression avec statsmodels en Python

Afficher le cours

Instructions

Récupérez les réponses réelles en sélectionnant la colonne has_churned du jeu de données. Assignez-la à actual_response.
Récupérez les réponses « les plus probables » prédites par le modèle. Assignez-les à predicted_response.
Créez un DataFrame à partir de actual_response et predicted_response. Assignez-le à outcomes.
Affichez outcomes sous forme de tableau de décomptes, représentant la matrice de confusion. Ceci a été fait pour vous.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get the actual responses
actual_response = ____

# Get the predicted responses
predicted_response = ____

# Create outcomes as a DataFrame of both Series
outcomes = pd.DataFrame({____,
                         ____})

# Print the outcomes
print(outcomes.value_counts(sort = False))

Modifier et exécuter le code

Cet exercice fait partie du cours

Introduction à la régression avec statsmodels en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Vous découvrirez les bases de ce modèle statistique populaire, ce qu’est la régression et en quoi les régressions linéaire et logistique diffèrent. Vous apprendrez ensuite à ajuster des modèles de régression linéaire simples avec des variables explicatives numériques et catégorielles, et à décrire la relation entre la variable réponse et les variables explicatives à l’aide des coefficients du modèle.

Exercise 1: Une histoire de deux variables Exercise 2: Laquelle est la variable de réponse ?Exercise 3: Visualiser deux variables numériques Exercise 4: Ajustement d'une régression linéaire Exercise 5: Estimer l'ordonnée à l'origine Exercise 6: Estimer la pente Exercise 7: Régression linéaire avec ols()Exercise 8: Variables explicatives catégorielles Exercise 9: Visualisation numérique par rapport à catégorielle Exercise 10: Calcul des moyennes par catégorie Exercise 11: Régression linéaire avec une variable explicative catégorielle

Dans ce chapitre, vous verrez comment utiliser des modèles de régression linéaire pour faire des prédictions sur les prix des logements à Taïwan et les clics sur des publicités Facebook. Vous renforcerez aussi vos compétences en régression en manipulant des objets modèle, en comprenant le concept de « régression vers la moyenne », et en apprenant à transformer des variables dans un jeu de données.

Exercise 1: Faire des prévisions Exercise 2: Prévision des prix de l'immobilier Exercise 3: Visualisation des prévisions Exercise 4: Les limites de la prédiction Exercise 5: Utilisation des objets modèles Exercise 6: Extraction des éléments du modèle Exercise 7: Prévision manuelle des prix immobiliers Exercise 8: Régression vers la moyenne Exercise 9: Home run !Exercise 10: Traçage de rendements consécutifs d'un portefeuille Exercise 11: Modélisation des rendements consécutifs Exercise 12: Transformer des variables Exercise 13: Transformation de la variable explicative Exercise 14: Transformer également la variable de réponse Exercise 15: Transformation inverse

Dans ce chapitre, vous apprendrez à questionner votre modèle pour évaluer son ajustement. Vous verrez comment quantifier la qualité d’ajustement d’un modèle de régression linéaire, diagnostiquer des problèmes via des visualisations, et comprendre l’effet de levier et l’influence de chaque observation dans la construction du modèle.

Exercise 1: Quantification de l'ajustement du modèle Exercise 2: Coefficient de détermination Exercise 3: Erreur type résiduelle Exercise 4: Visualisation de l'ajustement du modèle Exercise 5: Résidus par rapport aux valeurs ajustées Exercise 6: Graphique Q-Q des résidus Exercise 7: Échelle-position Exercise 8: Tracer des graphiques diagnostiques Exercise 9: Valeurs aberrantes, levier et influence Exercise 10: Levier Exercise 11: Influence Exercise 12: Extraction du levier et de l’influence

Apprenez à ajuster des modèles de régression logistique. À l'aide de données réelles, vous prédirez la probabilité qu'un client clôture son compte bancaire sous forme de probabilités de succès et de rapports de cotes, et vous quantifierez les performances du modèle à l'aide de matrices de confusion.

Exercise 1: Pourquoi la régression logistique est-elle nécessaire ?Exercise 2: Analyse des variables explicatives Exercise 3: Visualisation des modèles linéaires et logistiques Exercise 4: Régression logistique avec logit()Exercise 5: Prévisions et rapports de cotes Exercise 6: Probabilités Exercise 7: Résultat le plus probable Exercise 8: Rapport de cotes Exercise 9: Rapport de cotes logarithmique Exercise 10: Quantification de l'ajustement de la régression logistique Exercise 11: Calcul de la matrice de confusion

Exercice en cours

Exercise 12: Tracer un diagramme en mosaïque de la matrice de confusion Exercise 13: Précision, sensibilité, spécificité Exercise 14: Mesurer la performance du modèle logistique Exercise 15: Félicitations