CommencerCommencer gratuitement

Modèle de durée de vol : Modèle de pipeline

Vous êtes maintenant prêt à rassembler ces étapes dans un pipeline.

Vous construirez le pipeline et l'entraînerez ensuite sur les données d'entraînement. Cela permet d'appliquer chacune des étapes du pipeline aux données d'apprentissage à tour de rôle. Aucune des étapes ne sera exposée aux données de test : il n'y aura pas de fuite !

Une fois que l'ensemble du pipeline a été entraîné, il est utilisé pour faire des prédictions sur les données de test.

Les données sont disponibles sous la forme de flights, qui a été divisé de manière aléatoire en flights_train et flights_test.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe permettant de créer un pipeline.
  • Créez un objet pipeline et spécifiez les étapes indexer, onehot, assembler et regression, dans cet ordre.
  • Entraînez le pipeline sur les données d'entraînement.
  • Faites des prévisions sur la base des données d'essai.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Modifier et exécuter le code