Visualização de múltiplas variáveis explicativas
A regressão logística também suporta múltiplas variáveis explicativas. A plotagem tem problemas semelhantes aos do caso da regressão linear: rapidamente se torna difícil incluir mais variáveis numéricas na plotagem. Aqui, veremos o caso de duas variáveis explicativas numéricas, e a solução é basicamente a mesma de antes: use cores para indicar a resposta.
Aqui há apenas dois valores possíveis de resposta (zero e um) e, posteriormente, quando adicionamos respostas previstas, todos os valores estão entre zero e um. Depois que você incluir as respostas previstas, o mais importante a ser determinado no gráfico é se as previsões estão próximas de zero ou próximas de um. Isso significa que uma divisão de gradiente de duas cores em 0,5 é realmente útil: as respostas acima de 0,5 são de uma cor e as respostas abaixo de 0,5 são de outra cor.
O conjunto de dados de rotatividade bancária está disponível em churn
; ggplot2
é carregado.
Este exercício faz parte do curso
Regressão intermediária no R
Instruções de exercício
- Usando o conjunto de dados
churn
, desenhe o gráfico da recência da compra,time_since_last_purchase
, versus a duração do relacionamento com o cliente,time_since_first_purchase
, colorido pelo fato de o cliente ter ou não cancelado a compra,has_churned
. - Adicione uma camada de ponto, com transparência definida como
0.5
. - Use um gradiente de duas cores, com o ponto médio
0.5
. - Use o tema preto e branco.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Using churn, plot recency vs. length of relationship colored by churn status
___ +
# Make it a scatter plot, with transparency 0.5
___ +
# Use a 2-color gradient split at 0.5
___ +
# Use the black and white theme
___