BaşlayınÜcretsiz Başlayın

Karar Ağacını Değerlendir

Modelinin kalitesini, test verilerinde ne kadar iyi performans gösterdiğini değerlendirerek ölçebilirsin. Model bu veriler üzerinde eğitilmediği için bu, modelin nesnel bir değerlendirmesidir.

Bir karışıklık matrisi (confusion matrix), tahminlerin bilinen değerlere göre faydalı bir dökümünü sunar. Dört hücresi vardır ve şu sayıların karşılıklarını gösterir:

  • True Negatives (TN) — model olumsuz sonucu tahmin eder ve bilinen sonuç olumsuzdur
  • True Positives (TP) — model olumlu sonucu tahmin eder ve bilinen sonuç olumludur
  • False Negatives (FN) — model olumsuz sonucu tahmin eder ama bilinen sonuç olumludur
  • False Positives (FP) — model olumlu sonucu tahmin eder ama bilinen sonuç olumsuzdur.

Bu sayılar (TN, TP, FN ve FP), yalnızca uçuş verilerinin bir alt kümesi olan test verilerindeki kayıt sayısına eşit olmalıdır. Test verilerindeki kayıt sayısıyla karşılaştırabilirsin: flights_test.count().

Not: Bu tahminler test verileri üzerinde yapıldı, bu yüzden sayılar, eğitim verileri üzerinde yapılan tahminlere göre daha küçüktür.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • label ve prediction kombinasyonlarını sayarak bir karışıklık matrisi oluştur. Sonucu göster.
  • True Negatives, True Positives, False Negatives ve False Positives sayılarını say.
  • Doğruluğu (accuracy) hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a confusion matrix
prediction.groupBy(____, 'prediction').____().____()

# Calculate the elements of the confusion matrix
TN = prediction.filter('prediction = 0 AND label = prediction').count()
TP = prediction.____('____ AND ____').____()
FN = prediction.____('____ AND ____').____()
FP = prediction.____('____ AND ____').____()

# Accuracy measures the proportion of correct predictions
accuracy = ____
print(accuracy)
Kodu Düzenle ve Çalıştır