ComeçarComece de graça

Comparando o desempenho dos modelos

Fazer gráficos dá uma boa noção de onde o modelo acerta e onde não vai tão bem. Às vezes, é útil ter uma estatística que dê uma pontuação para o modelo. Assim, você consegue quantificar quão bom um modelo é e comparar vários modelos. Uma estatística comum é o erro quadrático médio da raiz (muitas vezes abreviado como "RMSE"), que simplesmente eleva os resíduos ao quadrado, tira a média e depois a raiz quadrada. Um RMSE menor para um determinado conjunto de dados indica uma previsão melhor. (Por padrão, você não pode comparar entre conjuntos de dados diferentes, apenas entre modelos no mesmo conjunto. Em alguns casos, é possível normalizar os conjuntos de dados para permitir comparações entre eles.)

Aqui, você vai comparar os modelos de gradient boosted trees e random forest.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

both_responses, que contém o ano previsto e o ano real da faixa em ambos os modelos, já foi pré-definido como um tibble local.

  • Crie um conjunto de dados com a soma dos quadrados dos resíduos.
    • Adicione uma coluna residual, igual à resposta prevista menos a resposta real.
    • Agrupe os dados por model.
    • Calcule uma estatística de resumo, rmse, igual à raiz quadrada da média dos residuals ao quadrado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# both_responses has been pre-defined
both_responses

# Create a residual sum of squares dataset
___
Editar e executar o código