LoslegenKostenlos loslegen

Den Entscheidungsbaum auswerten

Du kannst die Qualität deines Modells beurteilen, indem du bewertest, wie gut es bei den Testdaten abschneidet. Da das Modell nicht mit diesen Daten trainiert wurde, stellt dies eine objektive Bewertung des Modells dar.

Eine Konfusionsmatrix liefert eine nützliche Aufschlüsselung der Vorhersagen gegenüber den bekannten Werten. Sie hat vier Zellen, die die Anzahl der:

  • True Negatives (TN) - das Modell sagt ein negatives Ergebnis voraus und das bekannte Ergebnis ist negativ
  • True Positives (TP) - das Modell sagt ein positives Ergebnis voraus und das bekannte Ergebnis ist positiv
  • Falsch negative Ergebnisse (FN) - das Modell sagt ein negatives Ergebnis voraus, aber das bekannte Ergebnis ist positiv
  • False Positives (FP) - das Modell sagt ein positives Ergebnis voraus, aber das bekannte Ergebnis ist negativ.

Diese Zählungen (TN, TP, FN und FP) sollten in der Summe die Anzahl der Datensätze in den Testdaten ergeben, die nur eine Teilmenge der Flugdaten sind. Du kannst sie mit der Anzahl der Datensätze in den Testdaten vergleichen, die flights_test.count() lautet.

Hinweis: Diese Vorhersagen werden mit den Testdaten gemacht, daher sind die Zahlen kleiner als bei den Vorhersagen mit den Trainingsdaten.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine Verwirrungsmatrix, indem du die Kombinationen von label und prediction zählst. Zeige das Ergebnis an.
  • Zähle die Anzahl der Richtig Negativen, Richtig Positiven, Falsch Negativen und Falsch Positiven.
  • Berechne die Genauigkeit.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a confusion matrix
prediction.groupBy(____, 'prediction').____().____()

# Calculate the elements of the confusion matrix
TN = prediction.filter('prediction = 0 AND label = prediction').count()
TP = prediction.____('____ AND ____').____()
FN = prediction.____('____ AND ____').____()
FP = prediction.____('____ AND ____').____()

# Accuracy measures the proportion of correct predictions
accuracy = ____
print(accuracy)
Code bearbeiten und ausführen