Calcular la matriz de confusión
Una matriz de confusión (a veces llamada tabla de confusión) es la base de todas las métricas de rendimiento para modelos con una respuesta categórica (como una regresión logística). Contiene los recuentos de cada par respuesta real–respuesta predicha. En este caso, donde hay dos posibles respuestas (churn o no churn), hay cuatro resultados posibles.
- Verdadero positivo: La persona cliente ha hecho churn y el modelo predijo que lo haría.
- Falso positivo: La persona cliente no ha hecho churn, pero el modelo predijo que sí.
- Verdadero negativo: La persona cliente no ha hecho churn y el modelo predijo que no lo haría.
- Falso negativo: La persona cliente ha hecho churn, pero el modelo predijo que no lo haría.
churn y mdl_churn_vs_relationship están disponibles.
Este ejercicio forma parte del curso
Introducción a la regresión con statsmodels en Python
Instrucciones del ejercicio
- Obtén las respuestas reales seleccionando la columna
has_churneddel conjunto de datos. Asígnalas aactual_response. - Obtén las respuestas predichas "más probables" del modelo. Asígnalas a
predicted_response. - Crea un DataFrame a partir de
actual_responseypredicted_response. Asígnalo aoutcomes. - Imprime
outcomescomo una tabla de recuentos, que representa la matriz de confusión. Esto ya está hecho por ti.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Get the actual responses
actual_response = ____
# Get the predicted responses
predicted_response = ____
# Create outcomes as a DataFrame of both Series
outcomes = pd.DataFrame({____,
____})
# Print the outcomes
print(outcomes.value_counts(sort = False))