CommencerCommencer gratuitement

Modèle de durée de vol : Modèle de pipeline

Vous êtes maintenant prêt à assembler ces étapes dans un pipeline.

Vous allez construire le pipeline, puis l'entraîner à l'aide des données d'entraînement. Cela appliquera chacune des étapes individuelles du pipeline aux données d'entraînement, l'une après l'autre. Aucune des étapes ne sera exposée aux données de test : il n'y aura aucune fuite.

Une fois que l'ensemble du pipeline aura été formé, il sera utilisé pour établir des prévisions sur les données de test.

Les données sont disponibles à l'adresse flights, qui a été divisée de manière aléatoire en flights_train et flights_test.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez la classe permettant de créer un pipeline.
  • Veuillez créer un objet pipeline et spécifiez les étapes « indexer », « onehot », « assembler » et « regression », dans cet ordre.
  • Entraînez le pipeline sur les données d'entraînement.
  • Effectuez des prédictions sur les données de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Modifier et exécuter le code