Menghindari ketidakseimbangan kelas

Beberapa data memiliki keluaran yang sangat tidak seimbang—misalnya himpunan data penyakit langka. Jika membagi secara acak, Anda bisa mendapatkan pembagian yang sangat merugikan. Bayangkan semua observasi langka masuk ke set uji dan tidak ada di set latih. Itu akan merusak seluruh proses pelatihan Anda!

Untungnya, fungsi initial_split() menyediakan solusinya. Pada latihan ini, Anda akan mengamati dan mengatasi apa yang disebut sebagai ketidakseimbangan kelas.

Kode telah disediakan untuk membuat objek split diabetes_split dengan 75% data latih dan 25% data uji.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan Model Berbasis Pohon di R

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Preparation
set.seed(9888)
diabetes_split <- initial_split(diabetes, prop = 0.75)

# Proportion of 'yes' outcomes in the training data
counts_train <- table(training(___)$outcome)
prop_yes_train <- counts_train["___"] / sum(counts_train)

# Proportion of 'yes' outcomes in the test data
counts_test <- table(___)
prop_yes_test <- ___ / sum(___)

paste("Proportion of positive outcomes in training set:", round(prop_yes_train, 2))
paste("Proportion of positive outcomes in test set:", round(prop_yes_test, 2))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Machine Learning dengan Model Berbasis Pohon di R

SkillTag.level.beginnerSkillTag.label

4.9+

Mulai Kursus Gratis

Siap membangun pipeline Machine Learning yang nyata? Selesaikan latihan langkah demi langkah untuk mempelajari cara membuat pohon keputusan, membagi data Anda, dan memprediksi pasien mana yang paling berisiko mengidap diabetes. Terakhir namun tidak kalah penting, Anda akan membangun ukuran kinerja untuk menilai model Anda dan mengevaluasi prediksi Anda.

Exercise 1: Selamat datang di kursus ini!Exercise 2: Mengapa metode berbasis pohon?Exercise 3: Tentukan spesifikasi pohon tersebut Exercise 4: Latih model tersebut Exercise 5: Cara menumbuhkan pohon Anda Exercise 6: Pemecahan train/test Exercise 7: Menghindari ketidakseimbangan kelas

Latihan Saat Ini

Exercise 8: Dari nol jadi andal Exercise 9: Prediksi dan evaluasi Exercise 10: Buat prediksi Exercise 11: Uraikan matriks Exercise 12: Apakah Anda memprediksi dengan benar?

Siap untuk yang manis-manis? Gunakan himpunan data penilaian cokelat untuk membangun pohon regresi dan menilai kinerjanya menggunakan ukuran galat yang sesuai. Anda akan mengatasi ketidakpastian statistik dari satu kali pembagian latih/uji dengan menerapkan teknik manis seperti validasi silang dan kemudian menyelami lebih dalam dengan menguasai trade-off bias-varian.

Exercise 1: Keluaran kontinu Exercise 2: Latih pohon regresi Exercise 3: Memprediksi nilai baru Exercise 4: Periksa keluaran model Exercise 5: Metrik kinerja untuk pohon regresi Exercise 6: Kinerja in-sample Exercise 7: Kinerja out-of-sample Exercise 8: Kesalahan lebih besar, penalti lebih besar Exercise 9: Cross-validation Exercise 10: Buat lipatan Exercise 11: Latih tiap lipatan Exercise 12: Evaluasi lipatan Exercise 13: Pertukaran bias-varian Exercise 14: Sebutkan sesuai istilahnya Exercise 15: Sesuaikan kompleksitas model Exercise 16: Kinerja in-sample dan out-of-sample

Saatnya serius menyetel hyperparameter dan menafsirkan kurva receiver operating characteristic (ROC). Pada bab ini, Anda akan memanfaatkan kebijaksanaan kolektif melalui model ensemble seperti bagging atau random forest dan membangun ensemble yang memprediksi pelanggan kartu kredit mana yang paling mungkin melakukan churn.

Exercise 1: Menyetel hyperparameter Exercise 2: Hasilkan tuning grid Exercise 3: Penyetelan sepanjang grid Exercise 4: Pilih pemenang Exercise 5: Ukuran model lainnya Exercise 6: Hitung specificity Exercise 7: Gambar kurva ROC Exercise 8: Luas di bawah kurva ROC Exercise 9: Pohon hasil bagging Exercise 10: Membuat bagged trees Exercise 11: ROC dan AUC dalam-sampel Exercise 12: Periksa overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Kepentingan variabel

Siap memasuki kalangan atas model berbasis pohon? Terapkan gradient boosting untuk membuat ensemble yang kuat yang kinerjanya melampaui apa pun yang pernah Anda lihat atau bangun. Pelajari cara penyetelan halusnya dan bagaimana membandingkan berbagai model untuk memilih pemenang untuk produksi.

Exercise 1: Pengantar boosting Exercise 2: Bagging vs. boosting Exercise 3: Menentukan ensemble boosted Exercise 4: Gradient boosting Exercise 5: Latih sebuah boosted ensemble Exercise 6: Evaluasi ansambel Exercise 7: Bandingkan dengan satu pengklasifikasi Exercise 8: Optimalkan ansambel boosting Exercise 9: Persiapan penyetelan Exercise 10: Penyetelan yang sebenarnya Exercise 11: Finalisasi model Exercise 12: Perbandingan model Exercise 13: Bandingkan AUC Exercise 14: Plot kurva ROC Exercise 15: Penutup