Evaluasi model Logistic Regression

Akurasi umumnya bukan metrik yang sangat andal karena dapat bias terhadap kelas target yang paling umum.

Ada dua metrik berguna lainnya:

precision dan
recall.

Lihat slide untuk pelajaran ini guna mendapatkan rumus yang relevan.

Precision adalah proporsi prediksi positif yang benar. Dari semua penerbangan yang diprediksi akan terlambat, berapa proporsi yang benar-benar terlambat?

Recall adalah proporsi keluaran positif yang diprediksi dengan benar. Dari semua penerbangan yang terlambat, berapa proporsi yang diprediksi dengan benar oleh model?

Precision dan recall umumnya diformulasikan terhadap kelas target positif. Namun, dimungkinkan juga untuk menghitung versi weighted dari metrik ini yang mempertimbangkan kedua kelas target.

Komponen confusion matrix tersedia sebagai TN, TP, FN, dan FP, serta objek prediction.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Instruksi latihan

Temukan nilai precision dan recall.
Buat evaluator multi-kelas dan evaluasi weighted precision.
Buat evaluator biner dan evaluasi AUC menggunakan metrik "areaUnderROC".

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator

# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall    = {:.2f}'.format(precision, recall))

# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})

# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})

Edit dan Jalankan Kode