ComenzarEmpieza gratis

Gradient boosted trees: visualización

Ahora que tienes las predicciones de tu modelo, quizá te preguntes: «¿son buenas?». Hay muchas visualizaciones que puedes dibujar para diagnosticar la precisión de tus predicciones; aquí verás dos muy habituales. Primero, es útil dibujar un diagrama de dispersión de la respuesta predicha frente a la respuesta real para ver cómo se comparan. Segundo, los residuos deberían aproximarse a una distribución normal, así que es útil dibujar un gráfico de densidad de los residuos. Los gráficos se verán algo así.

Scatterplot of predicted response vs. actual response and density plot of distribution of residuals side by side.

En este ejercicio, aprenderás a calcular tú mismo los residuos (respuestas predichas menos respuestas reales) para tus predicciones del modelo.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha predefinido un tibble local responses que contiene los años predichos y reales.

  • Dibuja un diagrama de dispersión de respuestas predichas vs. reales.
    • Llama a ggplot().
    • El primer argumento es el conjunto de datos, responses.
    • El segundo argumento debe contener los nombres de columna sin comillas para los ejes x e y (actual y predicted, respectivamente), envueltos en aes().
    • Añade puntos con una llamada a geom_point().
    • Haz que los puntos sean parcialmente transparentes estableciendo alpha = 0.1.
    • Añade una línea de referencia con geom_abline() usando intercept = 0 y slope = 1.
  • Crea un tibble de residuos llamado residuals.
    • Llama a transmute() sobre responses.
    • La nueva columna debe llamarse residual.
    • residual debe ser igual a la respuesta predicha menos la respuesta real.
  • Dibuja un gráfico de densidad de los residuos.
    • Encadena el tibble transformado a ggplot().
    • ggplot() necesita una única estética, residual, envuelta en aes().
    • Añade una curva de densidad de probabilidad llamando a geom_density().
    • Añade una línea vertical de referencia en el cero llamando a geom_vline() con xintercept = 0.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# responses has been pre-defined
responses

# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(___, ___)) +
  # Add the points
  ___ +
  # Add a line at actual = predicted
  ___

residuals <- responses %>%
  # Transmute response data to residuals
  ___

# Draw a density plot of residuals
ggplot(___, aes(___)) +
    # Add a density curve
    ___ +
    # Add a vertical line through zero
    ___
Editar y ejecutar código