Modèle de durée de vol : Les étapes du pipeline
Vous allez créer les étapes du pipeline du modèle de durée des vols. Vous les utiliserez dans l'exercice suivant pour construire un pipeline et créer un modèle de régression.
Les classes StringIndexer, OneHotEncoder, VectorAssembler et LinearRegression sont déjà importées.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Créez un indexeur pour convertir la colonne "org" en une colonne indexée appelée "org_idx".
- Créez un codeur à un coup pour convertir les colonnes "orgidx" et "dow" en colonnes variables fictives appelées "orgdummy" et "dow_dummy".
- Créez un assembleur qui combinera la colonne "km" avec les deux colonnes de variables fictives. La colonne de sortie doit s'appeler "features".
- Créez un objet de régression linéaire pour prédire la durée du vol.
Il peut être utile de revoir les diapositives des leçons dans le panneau Diapositives à côté de l'IPython Shell.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert categorical strings to index values
indexer = ____(____)
# One-hot encode index values
onehot = ____(
inputCols=____,
outputCols=____
)
# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)
# A linear regression object
regression = ____(labelCol=____)