ComeçarComece de graça

Gradient boosted trees: visualização

Agora que você tem as previsões do seu modelo, talvez esteja se perguntando: "elas estão boas?" Existem muitos gráficos que você pode criar para diagnosticar a precisão das previsões; aqui você vai analisar dois gráficos comuns. Primeiro, é interessante desenhar um gráfico de dispersão da resposta prevista versus a resposta real, para ver como elas se comparam. Depois, os resíduos deveriam estar próximos de uma distribuição normal, então é útil desenhar um gráfico de densidade dos resíduos. Os gráficos ficarão parecidos com estes.

Scatterplot of predicted response vs. actual response and density plot of distribution of residuals side by side.

Neste exercício, você vai aprender a calcular os resíduos por conta própria (respostas previstas menos respostas reais) para as suas previsões de modelo.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma tibble local responses, contendo anos previstos e reais, já foi predefinida.

  • Desenhe um gráfico de dispersão de respostas previstas vs. reais.
    • Chame ggplot().
    • O primeiro argumento é o conjunto de dados, responses.
    • O segundo argumento deve conter os nomes das colunas sem aspas para os eixos x e y (actual e predicted, respectivamente), embrulhados em aes().
    • Adicione pontos incluindo uma chamada a geom_point().
    • Deixe os pontos parcialmente transparentes definindo alpha = 0.1.
    • Adicione uma linha de referência incluindo uma chamada a geom_abline() com intercept = 0 e slope = 1.
  • Crie uma tibble de resíduos chamada residuals.
    • Chame transmute() em responses.
    • A nova coluna deve se chamar residual.
    • residual deve ser igual à resposta prevista menos a resposta real.
  • Desenhe um gráfico de densidade dos resíduos.
    • Encadeie a tibble transformada para ggplot().
    • ggplot() precisa de uma única estética, residual embrulhada em aes().
    • Adicione uma curva de densidade de probabilidade chamando geom_density().
    • Adicione uma linha vertical de referência passando por zero chamando geom_vline() com xintercept = 0.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# responses has been pre-defined
responses

# Draw a scatterplot of predicted vs. actual
ggplot(___, aes(___, ___)) +
  # Add the points
  ___ +
  # Add a line at actual = predicted
  ___

residuals <- responses %>%
  # Transmute response data to residuals
  ___

# Draw a density plot of residuals
ggplot(___, aes(___)) +
    # Add a density curve
    ___ +
    # Add a vertical line through zero
    ___
Editar e executar o código