Random Forest: visualización
Ahora necesitas representar las predicciones. Con el modelo de gradient boosted trees, dibujaste un diagrama de dispersión de respuestas predichas frente a respuestas reales y un gráfico de densidad de los residuos. Ahora vas a adaptar esos gráficos para mostrar los resultados de ambos modelos a la vez.
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Se ha predefinido un tibble local both_responses que contiene los años predichos y reales para ambos modelos.
- Actualiza el diagrama de dispersión de respuesta predicha vs. real.
- Usa el conjunto de datos
both_responses. - Añade una estética de color para dibujar cada modelo con un color diferente. Usa
color = model. - En lugar de dibujar los puntos, usa
geom_smooth()para trazar una curva suavizada para cada modelo.
- Usa el conjunto de datos
- Crea un tibble de residuos, llamado
residuals.- Llama a
mutate()sobreboth_responses. - La nueva columna debe llamarse
residual. residualdebe ser igual a la respuesta predicha menos la respuesta real.
- Llama a
- Actualiza el gráfico de densidad de los residuos.
- Añade una estética de color para dibujar cada modelo con un color diferente.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# both_responses has been pre-defined
both_responses
# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(actual, predicted, ___)) +
# Add a smoothed line
___ +
# Add a line at actual = predicted
geom_abline(intercept = 0, slope = 1)
# Create a tibble of residuals
residuals <- ___
# Draw a density plot of residuals
ggplot(residuals, aes(residual, ___)) +
# Add a density curve
geom_density() +
# Add a vertical line through zero
geom_vline(xintercept = 0)