Evaluasi model Logistic Regression
Akurasi umumnya bukan metrik yang sangat andal karena dapat bias terhadap kelas target yang paling umum.
Ada dua metrik berguna lainnya:
- precision dan
- recall.
Lihat slide untuk pelajaran ini guna mendapatkan rumus yang relevan.
Precision adalah proporsi prediksi positif yang benar. Dari semua penerbangan yang diprediksi akan terlambat, berapa proporsi yang benar-benar terlambat?
Recall adalah proporsi keluaran positif yang diprediksi dengan benar. Dari semua penerbangan yang terlambat, berapa proporsi yang diprediksi dengan benar oleh model?
Precision dan recall umumnya diformulasikan terhadap kelas target positif. Namun, dimungkinkan juga untuk menghitung versi weighted dari metrik ini yang mempertimbangkan kedua kelas target.
Komponen confusion matrix tersedia sebagai TN, TP, FN, dan FP, serta objek prediction.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Temukan nilai precision dan recall.
- Buat evaluator multi-kelas dan evaluasi weighted precision.
- Buat evaluator biner dan evaluasi AUC menggunakan metrik
"areaUnderROC".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator
# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall = {:.2f}'.format(precision, recall))
# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})
# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})