LoslegenKostenlos loslegen

Erstelle ein logistisches Regressionsmodell

Du hast bereits ein Entscheidungsbaummodell mit den Flugdaten erstellt. Jetzt erstellst du ein logistisches Regressionsmodell mit denselben Daten.

Das Ziel ist es, vorherzusagen, ob ein Flug wahrscheinlich mindestens 15 Minuten verspätet ist (Label 1) oder nicht (Label 0).

Obwohl dir eine Vielzahl von Prädiktoren zur Verfügung steht, wirst du im Moment nur die Spalten mon, depart und duration verwenden. Dies sind numerische Merkmale, die sofort für ein logistisches Regressionsmodell verwendet werden können. Bevor du kategorische Merkmale einbeziehen kannst, musst du noch ein bisschen mehr Arbeit leisten. Bleib dran!

Die Daten wurden in Trainings- und Testsets aufgeteilt und sind als flights_train und flights_test verfügbar.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse zur Erstellung eines Klassifikators für logistische Regression.
  • Erstelle ein Klassifizierungsobjekt und trainiere es mit den Trainingsdaten.
  • Mache Vorhersagen für die Testdaten und erstelle eine Konfusionsmatrix.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the logistic regression class
from pyspark.ml.____ import ____

# Create a classifier object and train on training data
logistic = ____().____(____)

# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()
Code bearbeiten und ausführen