Calcolare la matrice di confusione
Una matrice di confusione (a volte chiamata tabella di confusione) è la base di tutte le metriche di performance per i modelli con una risposta categoriale (come una regressione logistica). Contiene i conteggi di ogni coppia risposta effettiva–risposta prevista. In questo caso, con due possibili risposte (churn o non churn), ci sono quattro esiti complessivi.
- Vero positivo: Il cliente ha fatto churn e il modello ha previsto che lo avrebbe fatto.
- Falso positivo: Il cliente non ha fatto churn, ma il modello ha previsto che lo avrebbe fatto.
- Vero negativo: Il cliente non ha fatto churn e il modello ha previsto che non lo avrebbe fatto.
- Falso negativo: Il cliente ha fatto churn, ma il modello ha previsto che non lo avrebbe fatto.
churn e mdl_churn_vs_relationship sono disponibili.
Questo esercizio fa parte del corso
Introduzione alla regressione con statsmodels in Python
Istruzioni dell'esercizio
- Ottieni le risposte effettive selezionando la colonna
has_churneddel dataset. Assegna aactual_response. - Ricava le risposte previste "più probabili" dal modello. Assegna a
predicted_response. - Crea un DataFrame a partire da
actual_responseepredicted_response. Assegna aoutcomes. - Stampa
outcomescome tabella di conteggi, che rappresenta la matrice di confusione. Questo è già stato fatto per te.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Get the actual responses
actual_response = ____
# Get the predicted responses
predicted_response = ____
# Create outcomes as a DataFrame of both Series
outcomes = pd.DataFrame({____,
____})
# Print the outcomes
print(outcomes.value_counts(sort = False))