Desempenho in-sample

É muito importante saber se seu modelo de regressão é útil ou não. Um modelo útil pode ser aquele que captura bem a estrutura do seu conjunto de treinamento. Uma forma de avaliar esse desempenho in-sample é prever nos dados de treinamento e calcular o erro absoluto médio de todos os pontos previstos.

Neste exercício, você vai avaliar suas previsões in-sample usando MAE (mean absolute error, ou erro absoluto médio). O MAE indica aproximadamente quão distante as previsões estão dos valores verdadeiros.

Ele é calculado usando a fórmula a seguir, em que \(n\) é o número de previsões feitas:

$$MAE = \frac{1}{n} \cdot \sum_{i=1}^n \text{absolute value of the }i\text{th error}$$

Está disponível no seu ambiente o seu model, a árvore de regressão que você construiu nos exercícios anteriores.

Este exercício faz parte do curso

Machine Learning com modelos baseados em árvores em R

Instruções do exercício

Crie in_sample_predictions usando model para prever no tibble chocolate_train.
Calcule um vetor abs_diffs que contenha as diferenças absolutas entre as previsões in-sample e as notas verdadeiras.
Calcule o erro absoluto médio de acordo com a fórmula acima.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Predict using the training set
in_sample_predictions <- predict(model,
                                 ___)

# Calculate the vector of absolute differences
abs_diffs <- ___(__$___ - ___$___)

# Calculate the mean absolute error
1 / ___ * ___

Editar e executar o código

Este exercício faz parte do curso

Machine Learning com modelos baseados em árvores em R

InicianteNível de habilidade

4.9+

Iniciar curso de graça

Pronto para montar um pipeline real de Machine Learning? Faça exercícios passo a passo para aprender a criar árvores de decisão, dividir seus dados e prever quais pacientes têm maior probabilidade de desenvolver diabetes. Por fim, você vai criar medidas de desempenho para avaliar seus modelos e validar suas previsões.

Exercise 1: Bem-vindo ao curso!Exercise 2: Por que métodos baseados em árvores?Exercise 3: Especifique essa árvore Exercise 4: Treine esse modelo Exercise 5: Como fazer sua árvore crescer Exercise 6: Divisão treino/teste Exercise 7: Evitando desbalanceamentos de classe Exercise 8: Do zero ao avançado Exercise 9: Prever e avaliar Exercise 10: Fazer previsões Exercise 11: Decifre a matriz Exercise 12: Você está prevendo corretamente?

Preparado para um pouco de chocolate? Use um conjunto de dados de avaliações de chocolate para construir árvores de regressão e avaliar seu desempenho com medidas de erro adequadas. Você vai superar as incertezas estatísticas de divisões simples treino/teste aplicando técnicas como validação cruzada e, depois, vai se aprofundar dominando o balanceamento entre viés e variância.

Exercise 1: Resultados contínuos Exercise 2: Treine uma árvore de regressão Exercise 3: Prever novos valores Exercise 4: Inspecionar a saída do modelo Exercise 5: Métricas de desempenho para árvores de regressão Exercise 6: Desempenho in-sample

Exercício atual

Exercise 7: Desempenho fora da amostra Exercise 8: Erros maiores, penalidade maior Exercise 9: Validação cruzada Exercise 10: Crie as dobras Exercise 11: Ajuste os folds Exercise 12: Avalie os folds Exercise 13: Compromisso entre viés e variância Exercise 14: Chame as coisas pelos nomes Exercise 15: Ajustar a complexidade do modelo Exercise 16: Desempenho in-sample e out-of-sample

Hora de levar a sério a busca pelos melhores hiperparâmetros e a interpretação de curvas ROC (receiver operating characteristic). Neste capítulo, você vai aproveitar a sabedoria do conjunto com modelos como bagging e random forests e construir ensembles que preveem quais clientes de cartão de crédito têm maior probabilidade de churn.

Exercise 1: Ajustando hiperparâmetros Exercise 2: Gerar uma grade de ajuste Exercise 3: Faça o tuning ao longo da grade Exercise 4: Escolha o vencedor Exercise 5: Mais métricas de modelo Exercise 6: Calcular a especificidade Exercise 7: Desenhar a curva ROC Exercise 8: Área sob a curva ROC Exercise 9: Árvores com bagging Exercise 10: Criar árvores com bagging Exercise 11: ROC e AUC in-sample Exercise 12: Verificar overfitting Exercise 13: Random forest Exercise 14: Bagging vs. random forest Exercise 15: Importância das variáveis

Pronto para a alta sociedade dos modelos baseados em árvores? Aplique gradient boosting para criar ensembles poderosos que superam tudo o que você já viu ou construiu. Aprenda a fazer o ajuste fino e a comparar diferentes modelos para escolher um vencedor para produção.

Exercise 1: Introdução ao boosting Exercise 2: Bagging vs. boosting Exercise 3: Especificar um conjunto impulsionado (boosted)Exercise 4: Gradient boosting Exercise 5: Treinar um ensemble com boosting Exercise 6: Avaliar o ensemble Exercise 7: Compare com um único classificador Exercise 8: Otimizar o ensemble com boosting Exercise 9: Preparação para ajuste Exercise 10: A calibração de verdade Exercise 11: Finalize o modelo Exercise 12: Comparação de modelos Exercise 13: Comparar AUC Exercise 14: Plotar curvas ROC Exercise 15: Encerramento