Flugdauer-Modell: Pipeline-Phasen
Du wirst die Phasen für die Pipeline des Flugdauer-Modells erstellen. Du wirst diese in der nächsten Übung verwenden, um eine Pipeline aufzubauen und ein Regressionsmodell zu erstellen.
Die Klassen „ StringIndexer
“, „ OneHotEncoder
“, „ VectorAssembler
“ und „ LinearRegression
“ sind schon importiert.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Mach einen Indexer, um die Spalte „org” in eine indizierte Spalte namens „org_idx” umzuwandeln.
- Erstell einen One-Hot-Encoder, um die Spalten „orgidx” und „dow” in Dummy-Variablen namens „orgdummy” und „dow_dummy” umzuwandeln.
- Mach einen Assembler, der die Spalte „km” mit den beiden Dummy-Variablen-Spalten zusammenfügt. Die Spalte mit den Ergebnissen sollte „features” heißen.
- Mach ein lineares Regressionsobjekt, um die Flugdauer vorherzusagen.
Es könnte hilfreich sein, die Folien aus den Lektionen im Folienbereich neben der IPython-Shell noch mal durchzugehen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)