Memprediksi kematian di GoT
Meskipun variabel target tidak memiliki nilai yang hilang, fitur lainnya ada yang memiliki. Karena fokus kursus ini bukan pada pembersihan dan prapemrosesan data, kami sudah melakukan prapemrosesan berikut untuk Anda:
- Mengganti nilai NA dengan
0. - Mengganti nilai usia yang negatif dengan
0. - Mengganti nilai NA pada usia dengan nilai rata-ratanya.
Sekarang mari membangun model ansambel menggunakan teknik averaging. Model individual berikut telah dibangun:
- Logistic Regression (
clf_lr). - Decision Tree (
clf_dt). - Support Vector Machine (
clf_svm).
Karena target bersifat biner, semua model ini mungkin memiliki kinerja individual yang baik.
Tujuan Anda adalah menggabungkannya menggunakan averaging. Ingat dari video bahwa ini sama dengan pendekatan voting soft, jadi Anda tetap harus menggunakan VotingClassifier().
Latihan ini adalah bagian dari kursus
Metode Ensemble di Python
Petunjuk latihan
- Siapkan daftar tuple
(string, estimator). Gunakan'lr'untukclf_lr,'dt'untukclf_dt, dan'svm'untukclf_svm. - Bangun averaging classifier bernama
clf_avg. Pastikan Anda menyetel argumen untuk parametervoting.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build the individual models
clf_lr = LogisticRegression(class_weight='balanced')
clf_dt = DecisionTreeClassifier(min_samples_leaf=3, min_samples_split=9, random_state=500)
clf_svm = SVC(probability=True, class_weight='balanced', random_state=500)
# List of (string, estimator) tuples
estimators = ____
# Build and fit an averaging classifier
clf_avg = ____
clf_avg.fit(X_train, y_train)
# Evaluate model performance
acc_avg = accuracy_score(y_test, clf_avg.predict(X_test))
print('Accuracy: {:.2f}'.format(acc_avg))