ComenzarEmpieza gratis

Visualizar múltiples variables explicativas

La regresión logística también admite múltiples variables explicativas. Al representar, surgen problemas similares a los del caso de regresión lineal: enseguida se complica incluir más variables numéricas en la gráfica. Aquí veremos el caso de dos variables explicativas numéricas, y la solución es básicamente la misma que antes: usar el color para indicar la respuesta.

En este caso, solo hay dos valores posibles de respuesta (cero y uno) y, más adelante, cuando añadamos respuestas predichas, los valores estarán entre cero y uno. Una vez que incluyes respuestas predichas, lo más importante que debes ver en la gráfica es si las predicciones están cerca de cero o cerca de uno. Eso significa que un degradado de 2 colores dividido en 0.5 es muy útil: las respuestas por encima de 0.5 tienen un color y las respuestas por debajo de 0.5 tienen otro.

El conjunto de datos de bajas bancarias está disponible como churn; ggplot2 ya está cargado.

Este ejercicio forma parte del curso

Regresión intermedia en R

Ver curso

Instrucciones del ejercicio

  • Con el conjunto de datos churn, representa la recencia de compra, time_since_last_purchase, frente a la duración de la relación con el cliente, time_since_first_purchase, coloreando por si el cliente causó baja o no, has_churned.
  • Añade una capa de puntos, con transparencia establecida en 0.5.
  • Usa un degradado de 2 colores, con punto medio 0.5.
  • Usa el tema en blanco y negro.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Using churn, plot recency vs. length of relationship colored by churn status
___ +
  # Make it a scatter plot, with transparency 0.5
  ___ +
  # Use a 2-color gradient split at 0.5
  ___ +
  # Use the black and white theme
  ___
Editar y ejecutar código