Vérifier le surapprentissage
Une AUC en échantillon très élevée, comme \(99,9\%\), peut indiquer un surapprentissage. Il est aussi possible que votre jeu de données soit particulièrement bien structuré, ou que votre modèle soit tout simplement excellent !
Pour vérifier ce qu’il en est, vous devez produire des estimations hors échantillon de votre AUC et, comme vous ne voulez pas encore toucher à votre jeu de test, vous pouvez les obtenir par validation croisée sur votre jeu d’entraînement.
Vos données d’entraînement, customers_train, et la spécification d’arbres empaquetés, spec_bagged, sont toujours disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Machine Learning avec des modèles à base d’arbres en R
Instructions
- Avec
fit_resamples(), estimez votre métriqueroc_aucen utilisant trois plis de validation croisée de votre jeu d’entraînement et la formule de modèlestill_customer ~ total_trans_amt + customer_age + education_level. - Récupérez les métriques du résultat pour afficher l’AUC.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
set.seed(55)
# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
___,
resamples = vfold_cv(___),
metrics = ___)
# Collect metrics
___(cv_results)