Flugdauer-Modell: Stufen der Pipeline
Du wirst die Phasen für die Flugdauer-Modell-Pipeline erstellen. Diese wirst du in der nächsten Übung verwenden, um eine Pipeline aufzubauen und ein Regressionsmodell zu erstellen.
Die Klassen StringIndexer
, OneHotEncoder
, VectorAssembler
und LinearRegression
sind bereits importiert.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Erstelle einen Indexer, um die Spalte "org" in eine indizierte Spalte namens "org_idx" umzuwandeln.
- Erstelle einen One-Hot-Codierer, um die Spalten "orgidx" und "dow" in Dummy-Variablen-Spalten namens "orgdummy" und "dow_dummy" umzuwandeln.
- Erstelle einen Assembler, der die Spalte "km" mit den beiden Dummy-Variablen-Spalten kombiniert. Die Ausgabespalte sollte "Merkmale" heißen.
- Erstelle ein lineares Regressionsobjekt, um die Flugdauer vorherzusagen.
Es kann nützlich sein, sich die Folien aus den Lektionen im Folienbereich neben der IPython-Shell noch einmal anzusehen.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)