CommencerCommencer gratuitement

Modèle de durée de vol : Étapes du pipeline

Vous allez créer les étapes du pipeline du modèle de durée des vols. Vous les utiliserez dans l'exercice suivant pour créer un pipeline et un modèle de régression.

Les classes StringIndexer, OneHotEncoder, VectorAssembler et LinearRegression sont déjà importées.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Créez un indexeur pour convertir la colonne « org » en une colonne indexée appelée « org_idx ».
  • Créez un encodeur one-hot pour convertir les colonnes « orgidx » et « dow » en colonnes de variables fictives appelées « orgdummy » et « dow_dummy ».
  • Veuillez créer un assembleur qui combinera la colonne « km » avec les deux colonnes de variables fictives. La colonne de sortie doit être intitulée « fonctionnalités ».
  • Créez un objet de régression linéaire pour prédire la durée du vol.

Il pourrait vous être utile de revoir les diapositives des leçons dans le panneau Slides situé à côté du shell IPython.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Convert categorical strings to index values
indexer = ____(____)

# One-hot encode index values
onehot = ____(
    inputCols=____,
    outputCols=____
)

# Assemble predictors into a single column
assembler = ____(inputCols=____, outputCol=____)

# A linear regression object
regression = ____(labelCol=____)
Modifier et exécuter le code