Visualizar múltiples variables explicativas
La regresión logística también admite múltiples variables explicativas. Al representar, surgen problemas similares a los del caso de regresión lineal: enseguida se complica incluir más variables numéricas en la gráfica. Aquí veremos el caso de dos variables explicativas numéricas, y la solución es básicamente la misma que antes: usar el color para indicar la respuesta.
En este caso, solo hay dos valores posibles de respuesta (cero y uno) y, más adelante, cuando añadamos respuestas predichas, los valores estarán entre cero y uno. Una vez que incluyes respuestas predichas, lo más importante que debes ver en la gráfica es si las predicciones están cerca de cero o cerca de uno. Eso significa que un degradado de 2 colores dividido en 0.5 es muy útil: las respuestas por encima de 0.5 tienen un color y las respuestas por debajo de 0.5 tienen otro.
El conjunto de datos de bajas bancarias está disponible como churn; ggplot2 ya está cargado.
Este ejercicio forma parte del curso
Regresión intermedia en R
Instrucciones del ejercicio
- Con el conjunto de datos
churn, representa la recencia de compra,time_since_last_purchase, frente a la duración de la relación con el cliente,time_since_first_purchase, coloreando por si el cliente causó baja o no,has_churned. - Añade una capa de puntos, con transparencia establecida en
0.5. - Usa un degradado de 2 colores, con punto medio
0.5. - Usa el tema en blanco y negro.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Using churn, plot recency vs. length of relationship colored by churn status
___ +
# Make it a scatter plot, with transparency 0.5
___ +
# Use a 2-color gradient split at 0.5
___ +
# Use the black and white theme
___