Evaluasi model Logistic Regression
Akurasi umumnya bukan metrik yang sangat andal karena dapat bias terhadap kelas target yang paling umum.
Ada dua metrik berguna lainnya:
- precision dan
- recall.
Lihat slide untuk pelajaran ini guna mendapatkan rumus yang relevan.
Precision adalah proporsi prediksi positif yang benar. Dari semua penerbangan yang diprediksi akan terlambat, berapa proporsi yang benar-benar terlambat?
Recall adalah proporsi keluaran positif yang diprediksi dengan benar. Dari semua penerbangan yang terlambat, berapa proporsi yang diprediksi dengan benar oleh model?
Precision dan recall umumnya diformulasikan terhadap kelas target positif. Namun, dimungkinkan juga untuk menghitung versi weighted dari metrik ini yang mempertimbangkan kedua kelas target.
Komponen confusion matrix tersedia sebagai TN, TP, FN, dan FP, serta objek prediction.
Latihan ini merupakan bagian dari kursus
Machine Learning dengan PySpark
Instruksi latihan
- Temukan nilai precision dan recall.
- Buat evaluator multi-kelas dan evaluasi weighted precision.
- Buat evaluator biner dan evaluasi AUC menggunakan metrik
"areaUnderROC".
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator
# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall = {:.2f}'.format(precision, recall))
# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})
# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})