Gradient boosted trees: visualização
Agora que você tem as previsões do seu modelo, talvez esteja se perguntando: "elas estão boas?" Existem muitos gráficos que você pode criar para diagnosticar a precisão das previsões; aqui você vai analisar dois gráficos comuns. Primeiro, é interessante desenhar um gráfico de dispersão da resposta prevista versus a resposta real, para ver como elas se comparam. Depois, os resíduos deveriam estar próximos de uma distribuição normal, então é útil desenhar um gráfico de densidade dos resíduos. Os gráficos ficarão parecidos com estes.

Neste exercício, você vai aprender a calcular os resíduos por conta própria (respostas previstas menos respostas reais) para as suas previsões de modelo.
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma tibble local responses, contendo anos previstos e reais, já foi predefinida.
- Desenhe um gráfico de dispersão de respostas previstas vs. reais.
- Chame
ggplot(). - O primeiro argumento é o conjunto de dados,
responses. - O segundo argumento deve conter os nomes das colunas sem aspas para os eixos x e y (
actualepredicted, respectivamente), embrulhados emaes(). - Adicione pontos incluindo uma chamada a
geom_point(). - Deixe os pontos parcialmente transparentes definindo
alpha = 0.1. - Adicione uma linha de referência incluindo uma chamada a
geom_abline()comintercept = 0eslope = 1.
- Chame
- Crie uma tibble de resíduos chamada
residuals.- Chame
transmute()emresponses. - A nova coluna deve se chamar
residual. residualdeve ser igual à resposta prevista menos a resposta real.
- Chame
- Desenhe um gráfico de densidade dos resíduos.
- Encadeie a tibble transformada para
ggplot(). ggplot()precisa de uma única estética,residualembrulhada emaes().- Adicione uma curva de densidade de probabilidade chamando
geom_density(). - Adicione uma linha vertical de referência passando por zero chamando
geom_vline()comxintercept = 0.
- Encadeie a tibble transformada para
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# responses has been pre-defined
responses
# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(___, ___)) +
# Add the points
___ +
# Add a line at actual = predicted
___
residuals <- responses %>%
# Transmute response data to residuals
___
# Draw a density plot of residuals
ggplot(___, aes(___)) +
# Add a density curve
___ +
# Add a vertical line through zero
___