Periksa overfitting
AUC dalam-sampel yang sangat tinggi seperti \(99.9\%\) dapat menjadi indikator overfitting. Ada juga kemungkinan bahwa himpunan data Anda memang sangat terstruktur dengan baik, atau model Anda benar-benar luar biasa!
Untuk memeriksa mana yang benar, Anda perlu menghasilkan estimasi AUC di luar sampel, dan karena Anda belum ingin menyentuh himpunan uji, Anda dapat menghitungnya menggunakan cross-validation pada himpunan latih.
Data latih Anda, customers_train, dan spesifikasi bagging tree, spec_bagged, masih tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Machine Learning dengan Model Berbasis Pohon di R
Petunjuk latihan
- Dengan
fit_resamples(), estimasikan metrikroc_aucAnda menggunakan tiga lipatan CV pada himpunan latih dan rumus modelstill_customer ~ total_trans_amt + customer_age + education_level. - Kumpulkan metrik hasilnya untuk menampilkan AUC.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
set.seed(55)
# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
___,
resamples = vfold_cv(___),
metrics = ___)
# Collect metrics
___(cv_results)