LoslegenKostenlos loslegen

Flugdauer-Modell: Mehr Funktionen!

Lass uns noch ein paar Funktionen zu unserem Modell hinzufügen. Das führt nicht unbedingt zu einem besseren Modell. Ein paar neue Features könnten das Modell noch besser machen. Weitere Funktionen könnten die Situation noch verschlimmern.

Mehr Funktionen machen das Modell immer komplizierter und schwerer zu verstehen.

Das sind die Features, die du im nächsten Modell haben wirst:

  • km
  • org (Abflughafen, One-Hot-Kodierung, 8 Ebenen)
  • depart (Abfahrtszeit, in 3-Stunden-Intervallen, One-Hot-Kodierung, 8 Stufen)
  • dow (Abreisetag der Woche, One-Hot-Kodierung, 7 Stufen) und
  • mon (Abreisemonat, One-Hot-Kodierung, 12 Stufen).

Diese wurden in der Spalte „ features “ zusammengefasst, die eine spärliche Darstellung von 32 Spalten ist (denk dran, dass die One-Hot-Kodierung eine Anzahl von Spalten erzeugt, die um eins weniger ist als die Anzahl der Ebenen).

Die Daten sind als „ flights ” verfügbar und zufällig in „ flights_train ” und „ flights_test ” aufgeteilt.

Diese Übung basiert auf einem kleinen Teil der Flugdaten.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Pass ein lineares Regressionsmodell an die Trainingsdaten an.
  • Mach Vorhersagen für die Testdaten.
  • Berechne den RMSE für die Testdaten.
  • Schau dir mal die Modellkoeffizienten an. Ist einer davon Null?

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)
Code bearbeiten und ausführen