Desempenho in-sample e out-of-sample

Um modelo mais sofisticado sempre tem melhor desempenho? Como vimos no vídeo, isso é só metade da verdade.

Modelos com overfitting entendem perfeitamente a estrutura do conjunto de treinamento, mas não conseguem generalizar para novos dados. Que chato! No fim das contas, o principal objetivo de um modelo preditivo é ir bem em dados novos, certo? Vá investigar!

Já estão carregados o último modelo do exercício anterior, complex_model, e seus dados de treino e teste (chocolate_train e chocolate_test).

Este exercício faz parte do curso

Machine Learning com modelos baseados em árvores em R

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Predict on and combine with training data and calculate the error
predict(___, new_data = ___) %>%
	___ %>% 
	mae(___,
        ___)

Editar e executar o código

Este exercício faz parte do curso

Machine Learning com modelos baseados em árvores em R

InicianteNível de habilidade

4.9+

Iniciar curso de graça

Pronto para montar um pipeline real de Machine Learning? Faça exercícios passo a passo para aprender a criar árvores de decisão, dividir seus dados e prever quais pacientes têm maior probabilidade de desenvolver diabetes. Por fim, você vai criar medidas de desempenho para avaliar seus modelos e validar suas previsões.

Exercise 1: Bem-vindo ao curso!Exercise 2: Por que métodos baseados em árvores?Exercise 3: Especifique essa árvore Exercise 4: Treine esse modelo Exercise 5: Como fazer sua árvore crescer Exercise 6: Divisão treino/teste Exercise 7: Evitando desbalanceamentos de classe Exercise 8: Do zero ao avançado Exercise 9: Prever e avaliar Exercise 10: Fazer previsões Exercise 11: Decifre a matriz Exercise 12: Você está prevendo corretamente?

Preparado para um pouco de chocolate? Use um conjunto de dados de avaliações de chocolate para construir árvores de regressão e avaliar seu desempenho com medidas de erro adequadas. Você vai superar as incertezas estatísticas de divisões simples treino/teste aplicando técnicas como validação cruzada e, depois, vai se aprofundar dominando o balanceamento entre viés e variância.

Exercise 1: Resultados contínuos Exercise 2: Treine uma árvore de regressão Exercise 3: Prever novos valores Exercise 4: Inspecionar a saída do modelo Exercise 5: Métricas de desempenho para árvores de regressão Exercise 6: Desempenho in-sample Exercise 7: Desempenho fora da amostra Exercise 8: Erros maiores, penalidade maior Exercise 9: Validação cruzada Exercise 10: Crie as dobras Exercise 11: Ajuste os folds Exercise 12: Avalie os folds Exercise 13: Compromisso entre viés e variância Exercise 14: Chame as coisas pelos nomes Exercise 15: Ajustar a complexidade do modelo Exercise 16: Desempenho in-sample e out-of-sample

Exercício atual

Hora de levar a sério a busca pelos melhores hiperparâmetros e a interpretação de curvas ROC (receiver operating characteristic). Neste capítulo, você vai aproveitar a sabedoria do conjunto com modelos como bagging e random forests e construir ensembles que preveem quais clientes de cartão de crédito têm maior probabilidade de churn.

Exercise 1: Ajustando hiperparâmetros Exercise 2: Gerar uma grade de ajuste Exercise 3: Faça o tuning ao longo da grade Exercise 4: Escolha o vencedor Exercise 5: Mais métricas de modelo Exercise 6: Calcular a especificidade Exercise 7: Desenhar a curva ROC Exercise 8: Área sob a curva ROC Exercise 9: Árvores com bagging Exercise 10: Criar árvores com bagging Exercise 11: ROC e AUC in-sample Exercise 12: Verificar overfitting Exercise 13: Random forest Exercise 14: Bagging vs. random forest Exercise 15: Importância das variáveis

Pronto para a alta sociedade dos modelos baseados em árvores? Aplique gradient boosting para criar ensembles poderosos que superam tudo o que você já viu ou construiu. Aprenda a fazer o ajuste fino e a comparar diferentes modelos para escolher um vencedor para produção.

Exercise 1: Introdução ao boosting Exercise 2: Bagging vs. boosting Exercise 3: Especificar um conjunto impulsionado (boosted)Exercise 4: Gradient boosting Exercise 5: Treinar um ensemble com boosting Exercise 6: Avaliar o ensemble Exercise 7: Compare com um único classificador Exercise 8: Otimizar o ensemble com boosting Exercise 9: Preparação para ajuste Exercise 10: A calibração de verdade Exercise 11: Finalize o modelo Exercise 12: Comparação de modelos Exercise 13: Comparar AUC Exercise 14: Plotar curvas ROC Exercise 15: Encerramento