Comprueba si hay sobreajuste
Un AUC dentro de la muestra muy alto, como \(99.9\%\), puede indicar sobreajuste. También es posible que tu conjunto de datos esté muy bien estructurado o que tu modelo sea fantástico.
Para comprobar cuál de estas opciones es cierta, necesitas obtener estimaciones fuera de la muestra de tu AUC y, como aún no quieres usar tu conjunto de prueba, puedes obtenerlas mediante validación cruzada sobre tu conjunto de entrenamiento.
Tus datos de entrenamiento, customers_train, y la especificación de árboles con bagging, spec_bagged, siguen disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Machine Learning con modelos basados en árboles en R
Instrucciones del ejercicio
- Usando
fit_resamples(), estima tu métricaroc_auccon tres particiones de validación cruzada (CV) de tu conjunto de entrenamiento y la fórmula del modelostill_customer ~ total_trans_amt + customer_age + education_level. - Recopila las métricas del resultado para mostrar el AUC.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
set.seed(55)
# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
___,
resamples = vfold_cv(___),
metrics = ___)
# Collect metrics
___(cv_results)