LoslegenKostenlos loslegen

Flugdauer-Modell: Pipeline-Phasen

Du wirst die Phasen für die Pipeline des Flugdauer-Modells erstellen. Du wirst diese in der nächsten Übung verwenden, um eine Pipeline aufzubauen und ein Regressionsmodell zu erstellen.

Die Klassen „ StringIndexer “, „ OneHotEncoder “, „ VectorAssembler “ und „ LinearRegression “ sind schon importiert.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Mach einen Indexer, um die Spalte „org” in eine indizierte Spalte namens „org_idx” umzuwandeln.
  • Erstell einen One-Hot-Encoder, um die Spalten „orgidx” und „dow” in Dummy-Variablen namens „orgdummy” und „dow_dummy” umzuwandeln.
  • Mach einen Assembler, der die Spalte „km” mit den beiden Dummy-Variablen-Spalten zusammenfügt. Die Spalte mit den Ergebnissen sollte „features” heißen.
  • Mach ein lineares Regressionsobjekt, um die Flugdauer vorherzusagen.

Es könnte hilfreich sein, die Folien aus den Lektionen im Folienbereich neben der IPython-Shell noch mal durchzugehen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Code bearbeiten und ausführen