Modèle de durée de vol : Étapes du pipeline
Vous allez créer les étapes du pipeline du modèle de durée des vols. Vous les utiliserez dans l'exercice suivant pour créer un pipeline et un modèle de régression.
Les classes StringIndexer
, OneHotEncoder
, VectorAssembler
et LinearRegression
sont déjà importées.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Créez un indexeur pour convertir la colonne « org » en une colonne indexée appelée « org_idx ».
- Créez un encodeur one-hot pour convertir les colonnes « orgidx » et « dow » en colonnes de variables fictives appelées « orgdummy » et « dow_dummy ».
- Veuillez créer un assembleur qui combinera la colonne « km » avec les deux colonnes de variables fictives. La colonne de sortie doit être intitulée « fonctionnalités ».
- Créez un objet de régression linéaire pour prédire la durée du vol.
Il pourrait vous être utile de revoir les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)