Cálculo da matriz de confusão
Uma matriz de confusão (ocasionalmente chamada de tabela de confusão) é a base de todas as métricas de desempenho para modelos com uma resposta categórica (como uma regressão logística). Ele contém as contagens de cada par de resposta real e resposta prevista. Nesse caso, em que há duas respostas possíveis (cancelar ou não cancelar), há quatro resultados gerais.
- Verdadeiramente positivo: O cliente cancelou a compra e o modelo previu que isso aconteceria.
- Falso positivo: O cliente não cancelou, mas o modelo previu que ele cancelaria.
- Verdadeiramente negativo: O cliente não cancelou e o modelo previu que ele não cancelaria.
- Falso negativo: O cliente cancelou, mas o modelo previu que ele não o faria.
churn
e mdl_churn_vs_relationship
estão disponíveis.
Este exercício faz parte do curso
Introdução à regressão com statsmodels em Python
Instruções de exercício
- Obtenha as respostas reais subconjunto da coluna
has_churned
do conjunto de dados. Atribuir aactual_response
. - Obtenha as respostas previstas "mais prováveis" do modelo. Atribuir a
predicted_response
. - Crie um DataFrame a partir de
actual_response
epredicted_response
. Atribuir aoutcomes
. - Imprima
outcomes
como uma tabela de contagens, representando a matriz de confusão. Isso foi feito para você.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Get the actual responses
actual_response = ____
# Get the predicted responses
predicted_response = ____
# Create outcomes as a DataFrame of both Series
outcomes = pd.DataFrame({____,
____})
# Print the outcomes
print(outcomes.value_counts(sort = False))