Aan de slagBegin gratis

Controleer op overfitting

Een heel hoge in-sample AUC, zoals \(99.9\%\), kan wijzen op overfitting. Het kan ook dat je gegevensset gewoon heel goed is gestructureerd, of dat je model simpelweg geweldig is!

Om te controleren wat hier aan de hand is, heb je out-of-sample schattingen van je AUC nodig. Omdat je je testset nog niet wilt gebruiken, kun je die verkrijgen met cross-validation op je trainingsset.

Je trainingsgegevens, customers_train, en de bagged tree-specificatie, spec_bagged, zijn nog beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in R

Bekijk cursus

Oefeninstructies

  • Gebruik fit_resamples() om je roc_auc-metriek te schatten met drie CV-folds van je trainingsset en de modelformule still_customer ~ total_trans_amt + customer_age + education_level.
  • Verzamel de metrieken van het resultaat om de AUC te tonen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

set.seed(55)

# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
                            ___, 
                            resamples = vfold_cv(___),
                            metrics = ___)

# Collect metrics
___(cv_results)
Code bewerken en uitvoeren