Random Forest: visualização
Agora você precisa plotar as previsões. Com o modelo de gradient boosted trees, você criou um gráfico de dispersão das respostas previstas vs. respostas reais e um gráfico de densidade dos resíduos. Agora você vai adaptar esses gráficos para exibir os resultados de ambos os modelos ao mesmo tempo.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Um tibble local both_responses, contendo anos previstos e reais para ambos os modelos, já foi predefinido.
- Atualize o gráfico de dispersão de resposta prevista vs. real.
- Use o conjunto de dados
both_responses. - Adicione uma estética de cor para desenhar cada modelo em uma cor diferente. Use
color = model. - Em vez de desenhar os pontos, use
geom_smooth()para desenhar uma curva suavizada para cada modelo.
- Use o conjunto de dados
- Crie um tibble de resíduos, chamado
residuals.- Chame
mutate()emboth_responses. - A nova coluna deve se chamar
residual. residualdeve ser igual à resposta prevista menos a resposta real.
- Chame
- Atualize o gráfico de densidade dos resíduos.
- Adicione uma estética de cor para desenhar cada modelo em uma cor diferente.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# both_responses has been pre-defined
both_responses
# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(actual, predicted, ___)) +
# Add a smoothed line
___ +
# Add a line at actual = predicted
geom_abline(intercept = 0, slope = 1)
# Create a tibble of residuals
residuals <- ___
# Draw a density plot of residuals
ggplot(residuals, aes(residual, ___)) +
# Add a density curve
geom_density() +
# Add a vertical line through zero
geom_vline(xintercept = 0)