Flugdauer-Modell: Mehr Funktionen!
Fügen wir unserem Modell weitere Funktionen hinzu. Das führt nicht unbedingt zu einem besseren Modell. Das Hinzufügen einiger Funktionen könnte das Modell verbessern. Wenn du weitere Funktionen hinzufügst, könnte es noch schlimmer werden.
Mehr Funktionen machen das Modell immer komplizierter und schwieriger zu interpretieren.
Das sind die Funktionen, die du in das nächste Modell einbauen wirst:
km
org
(Herkunftsflughafen, One-Hot kodiert, 8 Ebenen)depart
(Abfahrtszeit, in 3-Stunden-Intervallen, One-Hot kodiert, 8 Stufen)dow
(Abreisetag der Woche, einhändig kodiert, 7 Stufen) undmon
(Abreisemonat, einhändig kodiert, 12 Stufen).
Diese wurden in der Spalte features
zusammengefasst, die eine spärliche Darstellung von 32 Spalten ist (denk daran, dass bei der One-Hot-Codierung die Anzahl der Spalten um eine weniger ist als die Anzahl der Ebenen).
Die Daten sind als flights
verfügbar und werden nach dem Zufallsprinzip in flights_train
und flights_test
aufgeteilt.
Diese Übung basiert auf einer kleinen Teilmenge der Flugdaten.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Passe ein lineares Regressionsmodell an die Trainingsdaten an.
- Erstelle Vorhersagen für die Testdaten.
- Berechne den RMSE für die Testdaten.
- Schau dir die Modellkoeffizienten an. Ist einer von ihnen Null?
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____
# Fit linear regression model to training data
regression = ____(____).____(____)
# Make predictions on testing data
predictions = regression.____(____)
# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Look at the model coefficients
coeffs = regression.____
print(coeffs)