Model voor vluchtduur: Pipeline-stappen

Je gaat de stappen maken voor de pipeline van het vluchtduurmodel. In de volgende oefening gebruik je deze om een pipeline te bouwen en een regressiemodel te maken.

De klassen StringIndexer, OneHotEncoder, VectorAssembler en LinearRegression zijn al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Bekijk cursus

Oefeninstructies

Maak een indexer om de kolom 'org' om te zetten naar een geïndexeerde kolom met de naam 'org_idx'.
Maak een one-hot encoder om de kolommen 'org_idx' en 'dow' om te zetten naar dummyvariabele-kolommen met de namen 'org_dummy' en 'dow_dummy'.
Maak een assembler die de kolom 'km' combineert met de twee dummyvariabele-kolommen. De outputkolom moet 'features' heten.
Maak een lineaire regressie-object om de vluchtduur te voorspellen.

Het kan handig zijn om de dia's uit de lessen nog eens te bekijken in het paneel Slides naast de IPython Shell.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)

Code bewerken en uitvoeren