Flugdauer-Modell: Stufen der Pipeline
Du wirst die Phasen für die Flugdauer-Modell-Pipeline erstellen. Diese wirst du in der nächsten Übung verwenden, um eine Pipeline aufzubauen und ein Regressionsmodell zu erstellen.
Die Klassen StringIndexer, OneHotEncoder, VectorAssembler und LinearRegression sind bereits importiert.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Erstelle einen Indexer, um die Spalte "org" in eine indizierte Spalte namens "org_idx" umzuwandeln.
- Erstelle einen One-Hot-Codierer, um die Spalten "orgidx" und "dow" in Dummy-Variablen-Spalten namens "orgdummy" und "dow_dummy" umzuwandeln.
- Erstelle einen Assembler, der die Spalte "km" mit den beiden Dummy-Variablen-Spalten kombiniert. Die Ausgabespalte sollte "Merkmale" heißen.
- Erstelle ein lineares Regressionsobjekt, um die Flugdauer vorherzusagen.
Es kann nützlich sein, sich die Folien aus den Lektionen im Folienbereich neben der IPython-Shell noch einmal anzusehen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)