Aan de slagGa gratis aan de slag

Controleer op overfitting

Een heel hoge in-sample AUC, zoals \(99.9\%\), kan wijzen op overfitting. Het kan ook dat je gegevensset gewoon heel goed is gestructureerd, of dat je model simpelweg geweldig is!

Om te controleren wat hier aan de hand is, heb je out-of-sample schattingen van je AUC nodig. Omdat je je testset nog niet wilt gebruiken, kun je die verkrijgen met cross-validation op je trainingsset.

Je trainingsgegevens, customers_train, en de bagged tree-specificatie, spec_bagged, zijn nog beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Cursus bekijken

Oefeninstructies

  • Gebruik fit_resamples() om je roc_auc-metriek te schatten met drie CV-folds van je trainingsset en de modelformule still_customer ~ total_trans_amt + customer_age + education_level.
  • Verzamel de metrieken van het resultaat om de AUC te tonen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

set.seed(55)

# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
                            ___, 
                            resamples = vfold_cv(___),
                            metrics = ___)

# Collect metrics
___(cv_results)
Code bewerken en uitvoeren