Verifica l'overfitting
Una AUC in-sample molto alta, come il \(99{,}9\%\), può essere un segnale di overfitting. È anche possibile che il tuo insieme di dati sia semplicemente molto ben strutturato o che il tuo modello sia davvero eccezionale!
Per capire quale di queste ipotesi è vera, devi calcolare stime out-of-sample della tua AUC e, dato che non vuoi ancora toccare il test set, puoi ottenerle con la cross-validation sul training set.
I tuoi dati di training, customers_train, e la specifica dell'albero baggato, spec_bagged, sono ancora disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Machine Learning con modelli ad albero in R
Istruzioni dell'esercizio
- Usando
fit_resamples(), stima la metricaroc_auccon tre fold di CV del tuo training set e la formula del modellostill_customer ~ total_trans_amt + customer_age + education_level. - Raccogli le metriche del risultato per visualizzare l'AUC.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
set.seed(55)
# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
___,
resamples = vfold_cv(___),
metrics = ___)
# Collect metrics
___(cv_results)