ComenzarEmpieza gratis

Random Forest: visualización

Ahora necesitas representar las predicciones. Con el modelo de gradient boosted trees, dibujaste un diagrama de dispersión de respuestas predichas frente a respuestas reales y un gráfico de densidad de los residuos. Ahora vas a adaptar esos gráficos para mostrar los resultados de ambos modelos a la vez.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha predefinido un tibble local both_responses que contiene los años predichos y reales para ambos modelos.

  • Actualiza el diagrama de dispersión de respuesta predicha vs. real.
    • Usa el conjunto de datos both_responses.
    • Añade una estética de color para dibujar cada modelo con un color diferente. Usa color = model.
    • En lugar de dibujar los puntos, usa geom_smooth() para trazar una curva suavizada para cada modelo.
  • Crea un tibble de residuos, llamado residuals.
    • Llama a mutate() sobre both_responses.
    • La nueva columna debe llamarse residual.
    • residual debe ser igual a la respuesta predicha menos la respuesta real.
  • Actualiza el gráfico de densidad de los residuos.
    • Añade una estética de color para dibujar cada modelo con un color diferente.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# both_responses has been pre-defined
both_responses

# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(actual, predicted, ___)) +
  # Add a smoothed line
  ___ +
  # Add a line at actual = predicted
  geom_abline(intercept = 0, slope = 1)

# Create a tibble of residuals
residuals <- ___

# Draw a density plot of residuals
ggplot(residuals, aes(residual, ___)) +
    # Add a density curve
    geom_density() +
    # Add a vertical line through zero
    geom_vline(xintercept = 0)
Editar y ejecutar código