Logistic Regression modelini değerlendir
Doğruluk (accuracy) genellikle çok güvenilir bir metrik değildir çünkü en yaygın hedef sınıf tarafından yanlı olabilir.
İki faydalı metrik daha vardır:
- precision ve
- recall.
İlgili ifadeler için bu dersteki slaytlara göz at.
Precision, pozitif tahminlerin doğru olanlarının oranıdır. Gecikecek diye tahmin edilen tüm uçuşlar arasında, aslında gecikenlerin oranı nedir?
Recall, pozitif sonuçların doğru tahmin edilenlerinin oranıdır. Geciken tüm uçuşlar arasında, modelin doğru tahmin ettiklerinin oranı nedir?
Precision ve recall genellikle pozitif hedef sınıf açısından ifade edilir. Ancak her iki hedef sınıfı da dikkate alan bu metriklerin ağırlıklı sürümlerini hesaplamak da mümkündür.
Karmaşıklık matrisinin bileşenleri TN, TP, FN ve FP olarak, ayrıca prediction nesnesi olarak kullanılabilir durumdadır.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Machine Learning
Egzersiz talimatları
- Precision ve recall değerlerini bul.
- Çok sınıflı bir değerlendirici oluştur ve ağırlıklı precision'ı değerlendir.
- İkili bir değerlendirici oluştur ve
"areaUnderROC"metriğini kullanarak AUC'yi değerlendir.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator
# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall = {:.2f}'.format(precision, recall))
# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})
# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})