CommencerCommencer gratuitement

Modèle de durée de vol : Les étapes du pipeline

Vous allez créer les étapes du pipeline du modèle de durée des vols. Vous les utiliserez dans l'exercice suivant pour construire un pipeline et créer un modèle de régression.

Les classes StringIndexer, OneHotEncoder, VectorAssembler et LinearRegression sont déjà importées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Créez un indexeur pour convertir la colonne "org" en une colonne indexée appelée "org_idx".
  • Créez un codeur à un coup pour convertir les colonnes "orgidx" et "dow" en colonnes variables fictives appelées "orgdummy" et "dow_dummy".
  • Créez un assembleur qui combinera la colonne "km" avec les deux colonnes de variables fictives. La colonne de sortie doit s'appeler "features".
  • Créez un objet de régression linéaire pour prédire la durée du vol.

Il peut être utile de revoir les diapositives des leçons dans le panneau Diapositives à côté de l'IPython Shell.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Modifier et exécuter le code