LoslegenKostenlos loslegen

Flugdauer-Modell: Stufen der Pipeline

Du wirst die Phasen für die Flugdauer-Modell-Pipeline erstellen. Diese wirst du in der nächsten Übung verwenden, um eine Pipeline aufzubauen und ein Regressionsmodell zu erstellen.

Die Klassen StringIndexer, OneHotEncoder, VectorAssembler und LinearRegression sind bereits importiert.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen Indexer, um die Spalte "org" in eine indizierte Spalte namens "org_idx" umzuwandeln.
  • Erstelle einen One-Hot-Codierer, um die Spalten "orgidx" und "dow" in Dummy-Variablen-Spalten namens "orgdummy" und "dow_dummy" umzuwandeln.
  • Erstelle einen Assembler, der die Spalte "km" mit den beiden Dummy-Variablen-Spalten kombiniert. Die Ausgabespalte sollte "Merkmale" heißen.
  • Erstelle ein lineares Regressionsobjekt, um die Flugdauer vorherzusagen.

Es kann nützlich sein, sich die Folien aus den Lektionen im Folienbereich neben der IPython-Shell noch einmal anzusehen.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Code bearbeiten und ausführen