Erstelle ein logistisches Regressionsmodell
Du hast bereits ein Entscheidungsbaummodell mit den Flugdaten erstellt. Jetzt erstellst du ein logistisches Regressionsmodell mit denselben Daten.
Das Ziel ist es, vorherzusagen, ob ein Flug wahrscheinlich mindestens 15 Minuten verspätet ist (Label 1
) oder nicht (Label 0
).
Obwohl dir eine Vielzahl von Prädiktoren zur Verfügung steht, wirst du im Moment nur die Spalten mon
, depart
und duration
verwenden. Dies sind numerische Merkmale, die sofort für ein logistisches Regressionsmodell verwendet werden können. Bevor du kategorische Merkmale einbeziehen kannst, musst du noch ein bisschen mehr Arbeit leisten. Bleib dran!
Die Daten wurden in Trainings- und Testsets aufgeteilt und sind als flights_train
und flights_test
verfügbar.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klasse zur Erstellung eines Klassifikators für logistische Regression.
- Erstelle ein Klassifizierungsobjekt und trainiere es mit den Trainingsdaten.
- Mache Vorhersagen für die Testdaten und erstelle eine Konfusionsmatrix.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the logistic regression class
from pyspark.ml.____ import ____
# Create a classifier object and train on training data
logistic = ____().____(____)
# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()