Metrik kinerja untuk model RF
Pada latihan sebelumnya, Anda memperoleh skor akurasi untuk model random forest Anda. Kali ini, kita tahu bahwa akurasi bisa menyesatkan dalam kasus deteksi kecurangan. Dengan himpunan data kecurangan yang sangat tidak seimbang, kurva AUROC adalah metrik kinerja yang lebih andal untuk membandingkan berbagai classifier. Selain itu, classification report memberi tahu Anda tentang precision dan recall model Anda, sedangkan confusion matrix menunjukkan berapa banyak kasus kecurangan yang benar-benar dapat Anda prediksi dengan tepat. Jadi, mari kita dapatkan metrik kinerja ini.
Anda akan melanjutkan dengan model random forest yang sama dari latihan sebelumnya. Model Anda, yang didefinisikan sebagai model = RandomForestClassifier(random_state=5), sudah di-fit pada data latih Anda, dan X_train, y_train, X_test, y_test tersedia.
Latihan ini adalah bagian dari kursus
Deteksi Kecurangan di Python
Petunjuk latihan
- Impor classification report, confusion matrix, dan ROC score dari
sklearn.metrics. - Dapatkan prediksi biner dari
modelrandom forest terlatih Anda. - Dapatkan probabilitas prediksi dengan menjalankan fungsi
predict_proba(). - Peroleh classification report dan confusion matrix dengan membandingkan
y_testdenganpredicted.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____
# Obtain the predictions from our random forest model
predicted = model.____(X_test)
# Predict probabilities
probs = ____.____(X_test)
# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))