Matrice de confusion
Quand la variable réponse n’a que deux modalités, comme pour le churn, les critères de réussite du modèle sont : « dans combien de cas où le client a churné le modèle l’a-t-il correctement prédit ? » et « dans combien de cas où le client n’a pas churné le modèle l’a-t-il correctement prédit ? ». On peut répondre à ces questions en générant une matrice de confusion puis en calculant des métriques de synthèse.
Rappelez-vous les définitions suivantes :
Accuracy est la proportion de prédictions correctes. $$ \text{accuracy} = \frac{TN + TP}{TN + FN + FP + TP} $$
Sensitivity est la proportion d’observations vraies que le modèle prédit correctement comme vraies. $$ \text{sensitivity} = \frac{TP}{TP + FN} $$
Specificity est la proportion d’observations fausses que le modèle prédit correctement comme fausses. $$ \text{specificity} = \frac{TN}{TN + FP} $$
churn et mdl_churn_vs_both_inter sont disponibles.
Cet exercice fait partie du cours
Régression intermédiaire avec statsmodels en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create conf_matrix
conf_matrix = ____
# Print it
print(conf_matrix)