Galat akibat under/overfitting

Himpunan data permen sangat rentan mengalami overfitting. Dengan hanya 85 observasi, jika Anda menggunakan 20% untuk himpunan data pengujian, Anda kehilangan banyak data penting yang bisa digunakan untuk pemodelan. Bayangkan skenario ketika sebagian besar permen cokelat masuk ke data pelatihan dan hanya sedikit yang masuk ke sampel holdout. Model kita mungkin hanya melihat bahwa cokelat adalah faktor penting, tetapi gagal menemukan bahwa atribut lain juga berperan. Dalam latihan ini, Anda akan mengeksplorasi bagaimana menggunakan terlalu banyak fitur (kolom) dalam model random forest dapat menyebabkan overfitting.

Sebuah fitur merepresentasikan kolom mana dari data yang digunakan dalam pohon keputusan. Parameter max_features membatasi jumlah fitur yang tersedia.

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Update the rfr model
rfr = RandomForestRegressor(____=25,
                            ____=1111,
                            ____=2)
rfr.fit(X_train, y_train)

# Print the training and testing accuracies 
print('The training error is {0:.2f}'.format(
  mae(y_train, rfr.predict(X_train))))
print('The testing error is {0:.2f}'.format(
  mae(y_test, rfr.predict(X_test))))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Validasi Model di Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Sebelum kita dapat memvalidasi model, kita perlu memahami cara membuat dan menggunakannya. Bab ini memberikan pengantar untuk menjalankan model regresi dan klasifikasi di scikit-learn. Landasan pembangunan model ini akan kita gunakan di seluruh bab berikutnya.

Exercise 1: Pengantar validasi model Exercise 2: Langkah-langkah pemodelan Exercise 3: Data yang pernah vs. belum pernah dilihat Exercise 4: Model regresi Exercise 5: Atur parameter dan latih model Exercise 6: Tingkat kepentingan fitur Exercise 7: Model klasifikasi Exercise 8: Prediksi klasifikasi Exercise 9: Menggunakan kembali parameter model Exercise 10: Klasifikator random forest

Bab ini berfokus pada dasar-dasar validasi model. Mulai dari membagi data menjadi himpunan data pelatihan, validasi, dan pengujian, hingga membangun pemahaman tentang trade-off bias-varian, kita membangun fondasi untuk teknik validasi K-Fold dan Leave-One-Out yang dipraktikkan di bab tiga.

Exercise 1: Membuat himpunan data train, test, dan validation Exercise 2: Buat satu holdout set Exercise 3: Buat dua himpunan holdout Exercise 4: Mengapa menggunakan holdout set Exercise 5: Metrik akurasi: model regresi Exercise 6: Mean absolute error Exercise 7: Mean squared error Exercise 8: Kinerja pada subset data Exercise 9: Metrik klasifikasi Exercise 10: Confusion matrix Exercise 11: Matriks kebingungan, lagi Exercise 12: Precision vs. recall Exercise 13: Pertukaran bias-varians Exercise 14: Galat akibat under/overfitting

Latihan Saat Ini

Exercise 15: Apakah saya underfitting?

Holdout set merupakan awal yang baik untuk validasi model. Namun, menggunakan satu set latih dan uji saja sering kali tidak cukup. Cross-validation dianggap sebagai standar emas dalam memvalidasi kinerja model dan hampir selalu digunakan saat menala hyper-parameter model. Bab ini berfokus pada melakukan cross-validation untuk memvalidasi kinerja model.

Exercise 1: Masalah pada holdout set Exercise 2: Dua sampel Exercise 3: Potensi masalah Exercise 4: Cross-validation Exercise 5: KFold() di scikit-learn Exercise 6: Menggunakan indeks KFold Exercise 7: cross_val_score() dari sklearn Exercise 8: Metode-metode scikit-learn Exercise 9: Menerapkan cross_val_score()Exercise 10: Leave-one-out cross-validation (LOOCV)Exercise 11: Kapan menggunakan LOOCV Exercise 12: Leave-one-out-cross-validation

Tiga bab pertama berfokus pada teknik validasi model. Pada bab 4 kita menerapkan teknik-teknik ini, khususnya cross-validation, sambil mempelajari penalaan hyperparameter. Pada akhirnya, validasi model memungkinkan proses penalaan dan membantu kita memilih model terbaik secara keseluruhan.

Exercise 1: Pengantar hyperparameter tuning Exercise 2: Membuat Hyperparameter Exercise 3: Menjalankan model menggunakan rentang Exercise 4: RandomizedSearchCV Exercise 5: Mempersiapkan RandomizedSearch Exercise 6: Menerapkan RandomizedSearchCV Exercise 7: Memilih model final Anda Exercise 8: Akurasi klasifikasi terbaik Exercise 9: Memilih model precision terbaik Exercise 10: Kursus selesai!