Visualización de múltiples variables explicativas
La regresión logística también admite múltiples variables explicativas. El trazado tiene problemas similares a los del caso de la regresión lineal: rápidamente resulta difícil incluir más variables numéricas en el trazado. Aquí veremos el caso de dos variables explicativas numéricas, y la solución es básicamente la misma que antes: utilizar el color para denotar la respuesta.
Aquí sólo hay dos valores posibles de respuesta (cero y uno), y después, cuando añadimos las respuestas previstas, todos los valores están entre cero y uno. Una vez incluidas las respuestas predichas, lo más importante que hay que determinar a partir del gráfico es si las predicciones se acercan a cero o a uno. Eso significa que un gradiente de 2 colores dividido en 0,5 es realmente útil: las respuestas por encima de 0,5 son de un color, y las respuestas por debajo de 0,5 son de otro color.
El conjunto de datos de rotación de bancos está disponible en churn
; se carga ggplot2
.
Este ejercicio forma parte del curso
Regresión intermedia en R
Instrucciones del ejercicio
- Utilizando el conjunto de datos
churn
, traza la frecuencia de compra,time_since_last_purchase
, frente a la duración de la relación con el cliente,time_since_first_purchase
, coloreado por si el cliente abandonó o no,has_churned
. - Añade una capa de puntos, con la transparencia ajustada a
0.5
. - Utiliza un degradado de 2 colores, con el punto medio
0.5
. - Utiliza el tema blanco y negro.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Using churn, plot recency vs. length of relationship colored by churn status
___ +
# Make it a scatter plot, with transparency 0.5
___ +
# Use a 2-color gradient split at 0.5
___ +
# Use the black and white theme
___