MulaiMulai sekarang secara gratis

Metrik kinerja untuk model RF

Pada latihan sebelumnya, Anda memperoleh skor akurasi untuk model random forest Anda. Kali ini, kita tahu bahwa akurasi bisa menyesatkan dalam kasus deteksi kecurangan. Dengan himpunan data kecurangan yang sangat tidak seimbang, kurva AUROC adalah metrik kinerja yang lebih andal untuk membandingkan berbagai classifier. Selain itu, classification report memberi tahu Anda tentang precision dan recall model Anda, sedangkan confusion matrix menunjukkan berapa banyak kasus kecurangan yang benar-benar dapat Anda prediksi dengan tepat. Jadi, mari kita dapatkan metrik kinerja ini.

Anda akan melanjutkan dengan model random forest yang sama dari latihan sebelumnya. Model Anda, yang didefinisikan sebagai model = RandomForestClassifier(random_state=5), sudah di-fit pada data latih Anda, dan X_train, y_train, X_test, y_test tersedia.

Latihan ini adalah bagian dari kursus

Deteksi Kecurangan di Python

Lihat Kursus

Petunjuk latihan

  • Impor classification report, confusion matrix, dan ROC score dari sklearn.metrics.
  • Dapatkan prediksi biner dari model random forest terlatih Anda.
  • Dapatkan probabilitas prediksi dengan menjalankan fungsi predict_proba().
  • Peroleh classification report dan confusion matrix dengan membandingkan y_test dengan predicted.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____

# Obtain the predictions from our random forest model 
predicted = model.____(X_test)

# Predict probabilities
probs = ____.____(X_test)

# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))
Edit dan Jalankan Kode