Kinerja in-sample

Sangat penting untuk mengetahui apakah model regresi Anda bermanfaat atau tidak. Model yang bermanfaat bisa jadi adalah model yang mampu menangkap struktur himpunan latih dengan baik. Salah satu cara menilai kinerja in-sample adalah dengan memprediksi pada data pelatihan dan menghitung mean absolute error dari seluruh titik data yang diprediksi.

Pada latihan ini, Anda akan mengevaluasi prediksi in-sample menggunakan MAE (mean absolute error). MAE memberi tahu Anda seberapa jauh, secara kasar, prediksi dari nilai sebenarnya.

MAE dihitung menggunakan rumus berikut, di mana \(n\) adalah jumlah prediksi yang dibuat:

$$MAE = \frac{1}{n} \cdot \sum_{i=1}^n \text{absolute value of the }i\text{th error}$$

Di ruang kerja Anda tersedia model, yaitu regression tree yang Anda bangun pada latihan sebelumnya.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan Model Berbasis Pohon di R

Instruksi latihan

Buat in_sample_predictions dengan menggunakan model untuk memprediksi pada tibble chocolate_train.
Hitung vektor abs_diffs yang berisi selisih absolut antara prediksi in-sample dan nilai akhir yang sebenarnya.
Hitung mean absolute error sesuai rumus di atas.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Predict using the training set
in_sample_predictions <- predict(model,
                                 ___)

# Calculate the vector of absolute differences
abs_diffs <- ___(__$___ - ___$___)

# Calculate the mean absolute error
1 / ___ * ___

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Machine Learning dengan Model Berbasis Pohon di R

SkillTag.level.beginnerSkillTag.label

4.9+

Mulai Kursus Gratis

Siap membangun pipeline Machine Learning yang nyata? Selesaikan latihan langkah demi langkah untuk mempelajari cara membuat pohon keputusan, membagi data Anda, dan memprediksi pasien mana yang paling berisiko mengidap diabetes. Terakhir namun tidak kalah penting, Anda akan membangun ukuran kinerja untuk menilai model Anda dan mengevaluasi prediksi Anda.

Exercise 1: Selamat datang di kursus ini!Exercise 2: Mengapa metode berbasis pohon?Exercise 3: Tentukan spesifikasi pohon tersebut Exercise 4: Latih model tersebut Exercise 5: Cara menumbuhkan pohon Anda Exercise 6: Pemecahan train/test Exercise 7: Menghindari ketidakseimbangan kelas Exercise 8: Dari nol jadi andal Exercise 9: Prediksi dan evaluasi Exercise 10: Buat prediksi Exercise 11: Uraikan matriks Exercise 12: Apakah Anda memprediksi dengan benar?

Siap untuk yang manis-manis? Gunakan himpunan data penilaian cokelat untuk membangun pohon regresi dan menilai kinerjanya menggunakan ukuran galat yang sesuai. Anda akan mengatasi ketidakpastian statistik dari satu kali pembagian latih/uji dengan menerapkan teknik manis seperti validasi silang dan kemudian menyelami lebih dalam dengan menguasai trade-off bias-varian.

Exercise 1: Keluaran kontinu Exercise 2: Latih pohon regresi Exercise 3: Memprediksi nilai baru Exercise 4: Periksa keluaran model Exercise 5: Metrik kinerja untuk pohon regresi Exercise 6: Kinerja in-sample

Latihan Saat Ini

Exercise 7: Kinerja out-of-sample Exercise 8: Kesalahan lebih besar, penalti lebih besar Exercise 9: Cross-validation Exercise 10: Buat lipatan Exercise 11: Latih tiap lipatan Exercise 12: Evaluasi lipatan Exercise 13: Pertukaran bias-varian Exercise 14: Sebutkan sesuai istilahnya Exercise 15: Sesuaikan kompleksitas model Exercise 16: Kinerja in-sample dan out-of-sample

Saatnya serius menyetel hyperparameter dan menafsirkan kurva receiver operating characteristic (ROC). Pada bab ini, Anda akan memanfaatkan kebijaksanaan kolektif melalui model ensemble seperti bagging atau random forest dan membangun ensemble yang memprediksi pelanggan kartu kredit mana yang paling mungkin melakukan churn.

Exercise 1: Menyetel hyperparameter Exercise 2: Hasilkan tuning grid Exercise 3: Penyetelan sepanjang grid Exercise 4: Pilih pemenang Exercise 5: Ukuran model lainnya Exercise 6: Hitung specificity Exercise 7: Gambar kurva ROC Exercise 8: Luas di bawah kurva ROC Exercise 9: Pohon hasil bagging Exercise 10: Membuat bagged trees Exercise 11: ROC dan AUC dalam-sampel Exercise 12: Periksa overfitting Exercise 13: Random forest Exercise 14: Bagged trees vs. random forest Exercise 15: Kepentingan variabel

Siap memasuki kalangan atas model berbasis pohon? Terapkan gradient boosting untuk membuat ensemble yang kuat yang kinerjanya melampaui apa pun yang pernah Anda lihat atau bangun. Pelajari cara penyetelan halusnya dan bagaimana membandingkan berbagai model untuk memilih pemenang untuk produksi.

Exercise 1: Pengantar boosting Exercise 2: Bagging vs. boosting Exercise 3: Menentukan ensemble boosted Exercise 4: Gradient boosting Exercise 5: Latih sebuah boosted ensemble Exercise 6: Evaluasi ansambel Exercise 7: Bandingkan dengan satu pengklasifikasi Exercise 8: Optimalkan ansambel boosting Exercise 9: Persiapan penyetelan Exercise 10: Penyetelan yang sebenarnya Exercise 11: Finalisasi model Exercise 12: Perbandingan model Exercise 13: Bandingkan AUC Exercise 14: Plot kurva ROC Exercise 15: Penutup