Controleer op overfitting
Een heel hoge in-sample AUC, zoals \(99.9\%\), kan wijzen op overfitting. Het kan ook dat je gegevensset gewoon heel goed is gestructureerd, of dat je model simpelweg geweldig is!
Om te controleren wat hier aan de hand is, heb je out-of-sample schattingen van je AUC nodig. Omdat je je testset nog niet wilt gebruiken, kun je die verkrijgen met cross-validation op je trainingsset.
Je trainingsgegevens, customers_train, en de bagged tree-specificatie, spec_bagged, zijn nog beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Machine Learning met boomgebaseerde modellen in R
Oefeninstructies
- Gebruik
fit_resamples()om jeroc_auc-metriek te schatten met drie CV-folds van je trainingsset en de modelformulestill_customer ~ total_trans_amt + customer_age + education_level. - Verzamel de metrieken van het resultaat om de AUC te tonen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
set.seed(55)
# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
___,
resamples = vfold_cv(___),
metrics = ___)
# Collect metrics
___(cv_results)