Model bagging yang lebih kompleks
Setelah menelaah data semikonduktor, sekarang mari membangun sebuah bagging classifier untuk memprediksi label 'Pass/Fail' berdasarkan fitur masukan.
Himpunan data yang telah dipraproses tersedia di workspace Anda sebagai uci_secom, dan set latih serta uji telah disiapkan untuk Anda.
Karena target memiliki ketidakseimbangan kelas yang tinggi, gunakan logistic regression dengan "balanced" sebagai base estimator di sini.
Kita juga akan mengurangi waktu komputasi untuk LogisticRegression dengan parameter solver='liblinear', yang merupakan pengoptimal lebih cepat daripada default.
Latihan ini adalah bagian dari kursus
Metode Ensemble di Python
Petunjuk latihan
- Instansiasi logistic regression untuk digunakan sebagai classifier dasar dengan parameter:
class_weight='balanced',solver='liblinear', danrandom_state=42. - Bangun bagging classifier dengan menggunakan logistic regression sebagai base estimator, tetapkan jumlah maksimum fitur
10, dan sertakan out-of-bag score. - Cetak out-of-bag score untuk dibandingkan dengan akurasi.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build a balanced logistic regression
clf_lr = ____
# Build and fit a bagging classifier
clf_bag = ____(____, ____, ____, random_state=500)
clf_bag.fit(X_train, y_train)
# Evaluate the accuracy on the test set and show the out-of-bag score
pred = clf_bag.predict(X_test)
print('Accuracy: {:.2f}'.format(accuracy_score(y_test, pred)))
print('OOB-Score: {:.2f}'.format(____))
# Print the confusion matrix
print(confusion_matrix(y_test, pred))