Verificar overfitting
Uma AUC dentro da amostra muito alta, como \(99.9\%\), pode indicar overfitting. Também é possível que seu conjunto de dados seja muito bem estruturado ou que seu modelo esteja simplesmente excelente!
Para verificar qual dessas hipóteses é verdadeira, você precisa gerar estimativas fora da amostra da sua AUC e, como você ainda não quer usar o conjunto de teste, pode obtê-las usando validação cruzada no seu conjunto de treino.
Seus dados de treino, customers_train, e a especificação de árvore com bagging, spec_bagged, ainda estão disponíveis no seu ambiente de trabalho.
Este exercício faz parte do curso
Machine Learning com modelos baseados em árvores em R
Instruções do exercício
- Usando
fit_resamples(), estime sua métricaroc_aucusando três dobras de validação cruzada (CV) do seu conjunto de treino e a fórmula do modelostill_customer ~ total_trans_amt + customer_age + education_level. - Colete as métricas do resultado para exibir a AUC.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
set.seed(55)
# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
___,
resamples = vfold_cv(___),
metrics = ___)
# Collect metrics
___(cv_results)