ComenzarEmpieza gratis

Visualización de múltiples variables explicativas

La regresión logística también admite múltiples variables explicativas. El trazado tiene problemas similares a los del caso de la regresión lineal: rápidamente resulta difícil incluir más variables numéricas en el trazado. Aquí veremos el caso de dos variables explicativas numéricas, y la solución es básicamente la misma que antes: utilizar el color para denotar la respuesta.

Aquí sólo hay dos valores posibles de respuesta (cero y uno), y después, cuando añadimos las respuestas previstas, todos los valores están entre cero y uno. Una vez incluidas las respuestas predichas, lo más importante que hay que determinar a partir del gráfico es si las predicciones se acercan a cero o a uno. Eso significa que un gradiente de 2 colores dividido en 0,5 es realmente útil: las respuestas por encima de 0,5 son de un color, y las respuestas por debajo de 0,5 son de otro color.

El conjunto de datos de rotación de bancos está disponible en churn; se carga ggplot2.

Este ejercicio forma parte del curso

Regresión intermedia en R

Ver curso

Instrucciones del ejercicio

  • Utilizando el conjunto de datos churn, traza la frecuencia de compra, time_since_last_purchase, frente a la duración de la relación con el cliente, time_since_first_purchase, coloreado por si el cliente abandonó o no, has_churned.
  • Añade una capa de puntos, con la transparencia ajustada a 0.5.
  • Utiliza un degradado de 2 colores, con el punto medio 0.5.
  • Utiliza el tema blanco y negro.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Using churn, plot recency vs. length of relationship colored by churn status
___ +
  # Make it a scatter plot, with transparency 0.5
  ___ +
  # Use a 2-color gradient split at 0.5
  ___ +
  # Use the black and white theme
  ___
Editar y ejecutar código