Visualizzare più variabili esplicative
La regressione logistica supporta anche più variabili esplicative. La rappresentazione grafica presenta problemi simili al caso della regressione lineare: diventa presto difficile includere molte variabili numeriche nel grafico. Qui consideriamo il caso di due variabili esplicative numeriche e la soluzione è sostanzialmente la stessa di prima: usa il colore per indicare la risposta.
Qui ci sono solo due possibili valori di risposta (zero e uno) e, più avanti, quando aggiungeremo le risposte previste, i valori saranno tutti compresi tra zero e uno. Una volta incluse le risposte previste, la cosa più importante da capire dal grafico è se le previsioni sono vicine a zero o vicine a uno. Questo significa che un gradiente a 2 colori, diviso a 0,5, è davvero utile: le risposte sopra 0,5 hanno un colore, e quelle sotto 0,5 ne hanno un altro.
Il dataset sul churn bancario è disponibile come churn; ggplot2 è caricato.
Questo esercizio fa parte del corso
Regressione intermedia in R
Istruzioni dell'esercizio
- Usando il dataset
churn, traccia la recency di acquisto,time_since_last_purchase, rispetto alla durata della relazione con il cliente,time_since_first_purchase, colorando in base al fatto che il cliente abbia effettuato churn o meno,has_churned. - Aggiungi un layer di punti, con trasparenza impostata a
0.5. - Usa un gradiente a 2 colori, con
midpointpari a0.5. - Usa il tema in bianco e nero.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Using churn, plot recency vs. length of relationship colored by churn status
___ +
# Make it a scatter plot, with transparency 0.5
___ +
# Use a 2-color gradient split at 0.5
___ +
# Use the black and white theme
___