LoslegenKostenlos loslegen

Erstelle ein logistisches Regressionsmodell.

Du hast bereits ein Entscheidungsbaummodell anhand der Flugdaten erstellt. Jetzt erstellst du ein logistisches Regressionsmodell für dieselben Daten.

Das Ziel ist, vorherzusagen, ob ein Flug wahrscheinlich mindestens 15 Minuten Verspätung haben wird (Kennzeichnung „ 1 “) oder nicht (Kennzeichnung „ 0 “).

Obwohl du viele verschiedene Prädiktoren zur Verfügung hast, wirst du vorerst nur die Spalten „ mon “, „ depart “ und „ duration “ verwenden. Das sind numerische Merkmale, die man direkt für ein logistisches Regressionsmodell verwenden kann. Bevor du kategoriale Merkmale einbeziehen kannst, musst du noch ein bisschen was machen. Bleib dran!

Die Daten wurden in Trainings- und Testdatensätze aufgeteilt und sind unter flights_train und flights_test verfügbar.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse zum Erstellen eines Klassifikators für logistische Regression.
  • Mach ein Klassifizierer-Objekt und trainier es mit den Trainingsdaten.
  • Mach Vorhersagen für die Testdaten und erstelle eine Verwechslungsmatrix.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the logistic regression class
from pyspark.ml.____ import ____

# Create a classifier object and train on training data
logistic = ____().____(____)

# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()
Code bearbeiten und ausführen