MulaiMulai sekarang secara gratis

Periksa overfitting

AUC dalam-sampel yang sangat tinggi seperti \(99.9\%\) dapat menjadi indikator overfitting. Ada juga kemungkinan bahwa himpunan data Anda memang sangat terstruktur dengan baik, atau model Anda benar-benar luar biasa!

Untuk memeriksa mana yang benar, Anda perlu menghasilkan estimasi AUC di luar sampel, dan karena Anda belum ingin menyentuh himpunan uji, Anda dapat menghitungnya menggunakan cross-validation pada himpunan latih.

Data latih Anda, customers_train, dan spesifikasi bagging tree, spec_bagged, masih tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Machine Learning dengan Model Berbasis Pohon di R

Lihat Kursus

Petunjuk latihan

  • Dengan fit_resamples(), estimasikan metrik roc_auc Anda menggunakan tiga lipatan CV pada himpunan latih dan rumus model still_customer ~ total_trans_amt + customer_age + education_level.
  • Kumpulkan metrik hasilnya untuk menampilkan AUC.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

set.seed(55)

# Estimate AUC using cross-validation
cv_results <- fit_resamples(spec_bagged,
                            ___, 
                            resamples = vfold_cv(___),
                            metrics = ___)

# Collect metrics
___(cv_results)
Edit dan Jalankan Kode