IniziaInizia gratis

Verifica l'overfitting

Una AUC in-sample molto alta, come il \(99{,}9\%\), può essere un segnale di overfitting. È anche possibile che il tuo insieme di dati sia semplicemente molto ben strutturato o che il tuo modello sia davvero eccezionale!

Per capire quale di queste ipotesi è vera, devi calcolare stime out-of-sample della tua AUC e, dato che non vuoi ancora toccare il test set, puoi ottenerle con la cross-validation sul training set.

I tuoi dati di training, customers_train, e la specifica dell'albero baggato, spec_bagged, sono ancora disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Machine Learning con modelli ad albero in R

Visualizza il corso

Istruzioni dell'esercizio

  • Usando fit_resamples(), stima la metrica roc_auc con tre fold di CV del tuo training set e la formula del modello still_customer ~ total_trans_amt + customer_age + education_level.
  • Raccogli le metriche del risultato per visualizzare l'AUC.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

set.seed(55)

# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
                            ___, 
                            resamples = vfold_cv(___),
                            metrics = ___)

# Collect metrics
___(cv_results)
Modifica ed esegui il codice