CommencerCommencez gratuitement

Modèle de durée de vol : Les étapes du pipeline

Vous allez créer les étapes du pipeline du modèle de durée des vols. Vous les utiliserez dans l'exercice suivant pour construire un pipeline et créer un modèle de régression.

Les classes StringIndexer, OneHotEncoder, VectorAssembler et LinearRegression sont déjà importées.

Cet exercice fait partie du cours

<cours>Apprentissage automatique avec PySpark</cours>
Voir le cours

Instructions de l’exercice

  • Créez un indexeur pour convertir la colonne "org" en une colonne indexée appelée "org_idx".
  • Créez un codeur à un coup pour convertir les colonnes "orgidx" et "dow" en colonnes variables fictives appelées "orgdummy" et "dow_dummy".
  • Créez un assembleur qui combinera la colonne "km" avec les deux colonnes de variables fictives. La colonne de sortie doit s'appeler "features".
  • Créez un objet de régression linéaire pour prédire la durée du vol.

Il peut être utile de revoir les diapositives des leçons dans le panneau Diapositives à côté de l'IPython Shell.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Modifier et exécuter le code