Model bagging yang lebih kompleks
Setelah menelaah data semikonduktor, sekarang mari membangun sebuah bagging classifier untuk memprediksi label 'Pass/Fail' berdasarkan fitur masukan.
Himpunan data yang telah dipraproses tersedia di workspace Anda sebagai uci_secom, dan set latih serta uji telah disiapkan untuk Anda.
Karena target memiliki ketidakseimbangan kelas yang tinggi, gunakan logistic regression dengan "balanced" sebagai base estimator di sini.
Kita juga akan mengurangi waktu komputasi untuk LogisticRegression dengan parameter solver='liblinear', yang merupakan pengoptimal lebih cepat daripada default.
Latihan ini merupakan bagian dari kursus
Metode Ensemble di Python
Instruksi latihan
- Instansiasi logistic regression untuk digunakan sebagai classifier dasar dengan parameter:
class_weight='balanced',solver='liblinear', danrandom_state=42. - Bangun bagging classifier dengan menggunakan logistic regression sebagai base estimator, tetapkan jumlah maksimum fitur
10, dan sertakan out-of-bag score. - Cetak out-of-bag score untuk dibandingkan dengan akurasi.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Build a balanced logistic regression
clf_lr = ____
# Build and fit a bagging classifier
clf_bag = ____(____, ____, ____, random_state=500)
clf_bag.fit(X_train, y_train)
# Evaluate the accuracy on the test set and show the out-of-bag score
pred = clf_bag.predict(X_test)
print('Accuracy: {:.2f}'.format(accuracy_score(y_test, pred)))
print('OOB-Score: {:.2f}'.format(____))
# Print the confusion matrix
print(confusion_matrix(y_test, pred))