Gradient boosted trees: visualización
Ahora que tienes las predicciones de tu modelo, quizá te preguntes: «¿son buenas?». Hay muchas visualizaciones que puedes dibujar para diagnosticar la precisión de tus predicciones; aquí verás dos muy habituales. Primero, es útil dibujar un diagrama de dispersión de la respuesta predicha frente a la respuesta real para ver cómo se comparan. Segundo, los residuos deberían aproximarse a una distribución normal, así que es útil dibujar un gráfico de densidad de los residuos. Los gráficos se verán algo así.

En este ejercicio, aprenderás a calcular tú mismo los residuos (respuestas predichas menos respuestas reales) para tus predicciones del modelo.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Se ha predefinido un tibble local responses que contiene los años predichos y reales.
- Dibuja un diagrama de dispersión de respuestas predichas vs. reales.
- Llama a
ggplot(). - El primer argumento es el conjunto de datos,
responses. - El segundo argumento debe contener los nombres de columna sin comillas para los ejes x e y (
actualypredicted, respectivamente), envueltos enaes(). - Añade puntos con una llamada a
geom_point(). - Haz que los puntos sean parcialmente transparentes estableciendo
alpha = 0.1. - Añade una línea de referencia con
geom_abline()usandointercept = 0yslope = 1.
- Llama a
- Crea un tibble de residuos llamado
residuals.- Llama a
transmute()sobreresponses. - La nueva columna debe llamarse
residual. residualdebe ser igual a la respuesta predicha menos la respuesta real.
- Llama a
- Dibuja un gráfico de densidad de los residuos.
- Encadena el tibble transformado a
ggplot(). ggplot()necesita una única estética,residual, envuelta enaes().- Añade una curva de densidad de probabilidad llamando a
geom_density(). - Añade una línea vertical de referencia en el cero llamando a
geom_vline()conxintercept = 0.
- Encadena el tibble transformado a
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# responses has been pre-defined
responses
# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(___, ___)) +
# Add the points
___ +
# Add a line at actual = predicted
___
residuals <- responses %>%
# Transmute response data to residuals
___
# Draw a density plot of residuals
ggplot(___, aes(___)) +
# Add a density curve
___ +
# Add a vertical line through zero
___