MulaiMulai sekarang secara gratis

Evaluasi model Logistic Regression

Akurasi umumnya bukan metrik yang sangat andal karena dapat bias terhadap kelas target yang paling umum.

Ada dua metrik berguna lainnya:

  • precision dan
  • recall.

Lihat slide untuk pelajaran ini guna mendapatkan rumus yang relevan.

Precision adalah proporsi prediksi positif yang benar. Dari semua penerbangan yang diprediksi akan terlambat, berapa proporsi yang benar-benar terlambat?

Recall adalah proporsi keluaran positif yang diprediksi dengan benar. Dari semua penerbangan yang terlambat, berapa proporsi yang diprediksi dengan benar oleh model?

Precision dan recall umumnya diformulasikan terhadap kelas target positif. Namun, dimungkinkan juga untuk menghitung versi weighted dari metrik ini yang mempertimbangkan kedua kelas target.

Komponen confusion matrix tersedia sebagai TN, TP, FN, dan FP, serta objek prediction.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Temukan nilai precision dan recall.
  • Buat evaluator multi-kelas dan evaluasi weighted precision.
  • Buat evaluator biner dan evaluasi AUC menggunakan metrik "areaUnderROC".

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator

# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall    = {:.2f}'.format(precision, recall))

# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})

# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})
Edit dan Jalankan Kode