Dari nol jadi andal

Anda telah menguasai keterampilan membuat spesifikasi model dan membagi himpunan data menjadi data pelatihan dan uji. Anda juga tahu cara menghindari ketidakseimbangan kelas saat melakukan split. Sekarang saatnya menggabungkan apa yang Anda pelajari di pelajaran sebelumnya dan membangun model hanya dengan menggunakan data pelatihan!

Anda akan membangun sebuah machine learning pipeline yang lengkap. Ini mencakup pembuatan spesifikasi model, membagi data Anda menjadi himpunan pelatihan dan uji, dan terakhir, melatih data pelatihan ke model. Selamat mencoba!

Latihan ini merupakan bagian dari kursus

Machine Learning dengan Model Berbasis Pohon di R

Instruksi latihan

Buat diabetes_split, sebuah split di mana himpunan pelatihan berisi tiga perempat dari semua baris diabetes dan di mana himpunan pelatihan serta uji memiliki sebaran yang serupa pada variabel outcome.
Bangun spesifikasi pohon keputusan untuk model Anda menggunakan engine rpart dan simpan sebagai tree_spec.
Latih sebuah model model_trained menggunakan data pelatihan dari diabetes_split dengan outcome sebagai variabel target dan bmi serta skin_thickness sebagai prediktor.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

set.seed(9)

# Create the balanced data split
diabetes_split <- ___

# Build the specification of the model
tree_spec <- ___ %>% 
  ___ %>% 
  ___

# Train the model
model_trained <- ___ %>% 
  fit(___, 
      ___)

model_trained

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Machine Learning dengan Model Berbasis Pohon di R

SkillTag.level.beginnerSkillTag.label

4.9+

Mulai Kursus Gratis

Siap membangun pipeline Machine Learning yang nyata? Selesaikan latihan langkah demi langkah untuk mempelajari cara membuat pohon keputusan, membagi data Anda, dan memprediksi pasien mana yang paling berisiko mengidap diabetes. Terakhir namun tidak kalah penting, Anda akan membangun ukuran kinerja untuk menilai model Anda dan mengevaluasi prediksi Anda.

Exercise 1: Selamat datang di kursus ini!Exercise 2: Mengapa metode berbasis pohon?Exercise 3: Tentukan spesifikasi pohon tersebut Exercise 4: Latih model tersebut Exercise 5: Cara menumbuhkan pohon Anda Exercise 6: Pemecahan train/test Exercise 7: Menghindari ketidakseimbangan kelas Exercise 8: Dari nol jadi andal

Latihan Saat Ini

Exercise 9: Prediksi dan evaluasi Exercise 10: Buat prediksi Exercise 11: Uraikan matriks Exercise 12: Apakah Anda memprediksi dengan benar?

Siap untuk yang manis-manis? Gunakan himpunan data penilaian cokelat untuk membangun pohon regresi dan menilai kinerjanya menggunakan ukuran galat yang sesuai. Anda akan mengatasi ketidakpastian statistik dari satu kali pembagian latih/uji dengan menerapkan teknik manis seperti validasi silang dan kemudian menyelami lebih dalam dengan menguasai trade-off bias-varian.

Exercise 1: Keluaran kontinu Exercise 2: Latih pohon regresi Exercise 3: Memprediksi nilai baru Exercise 4: Periksa keluaran model Exercise 5: Metrik kinerja untuk pohon regresi Exercise 6: Kinerja in-sample Exercise 7: Kinerja out-of-sample Exercise 8: Kesalahan lebih besar, penalti lebih besar Exercise 9: Cross-validation Exercise 10: Buat lipatan Exercise 11: Latih tiap lipatan Exercise 12: Evaluasi lipatan Exercise 13: Pertukaran bias-varian Exercise 14: Sebutkan sesuai istilahnya Exercise 15: Sesuaikan kompleksitas model Exercise 16: Kinerja in-sample dan out-of-sample

Saatnya serius menyetel hyperparameter dan menafsirkan kurva receiver operating characteristic (ROC). Pada bab ini, Anda akan memanfaatkan kebijaksanaan kolektif melalui model ensemble seperti bagging atau random forest dan membangun ensemble yang memprediksi pelanggan kartu kredit mana yang paling mungkin melakukan churn.

Exercise 1: Menyetel hyperparameter Exercise 2: Hasilkan tuning grid Exercise 3: Penyetelan sepanjang grid Exercise 4: Pilih pemenang Exercise 5: Ukuran model lainnya Exercise 6: Hitung specificity Exercise 7: Gambar kurva ROC Exercise 8: Luas di bawah kurva ROC Exercise 9: Pohon hasil bagging Exercise 10: Membuat bagged trees Exercise 11: ROC dan AUC dalam-sampel Exercise 12: Periksa overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Kepentingan variabel

Siap memasuki kalangan atas model berbasis pohon? Terapkan gradient boosting untuk membuat ensemble yang kuat yang kinerjanya melampaui apa pun yang pernah Anda lihat atau bangun. Pelajari cara penyetelan halusnya dan bagaimana membandingkan berbagai model untuk memilih pemenang untuk produksi.

Exercise 1: Pengantar boosting Exercise 2: Bagging vs. boosting Exercise 3: Menentukan ensemble boosted Exercise 4: Gradient boosting Exercise 5: Latih sebuah boosted ensemble Exercise 6: Evaluasi ansambel Exercise 7: Bandingkan dengan satu pengklasifikasi Exercise 8: Optimalkan ansambel boosting Exercise 9: Persiapan penyetelan Exercise 10: Penyetelan yang sebenarnya Exercise 11: Finalisasi model Exercise 12: Perbandingan model Exercise 13: Bandingkan AUC Exercise 14: Plot kurva ROC Exercise 15: Penutup