Aan de slagGa gratis aan de slag

Model voor vluchtduur: Pipeline-stappen

Je gaat de stappen maken voor de pipeline van het vluchtduurmodel. In de volgende oefening gebruik je deze om een pipeline te bouwen en een regressiemodel te maken.

De klassen StringIndexer, OneHotEncoder, VectorAssembler en LinearRegression zijn al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Maak een indexer om de kolom 'org' om te zetten naar een geïndexeerde kolom met de naam 'org_idx'.
  • Maak een one-hot encoder om de kolommen 'org_idx' en 'dow' om te zetten naar dummyvariabele-kolommen met de namen 'org_dummy' en 'dow_dummy'.
  • Maak een assembler die de kolom 'km' combineert met de twee dummyvariabele-kolommen. De outputkolom moet 'features' heten.
  • Maak een lineaire regressie-object om de vluchtduur te voorspellen.

Het kan handig zijn om de dia's uit de lessen nog eens te bekijken in het paneel Slides naast de IPython Shell.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Code bewerken en uitvoeren