Modèle de durée de vol : Modèle de pipeline

Vous êtes maintenant prêt à rassembler ces étapes dans un pipeline.

Vous construirez le pipeline et l'entraînerez ensuite sur les données d'entraînement. Cela permet d'appliquer chacune des étapes du pipeline aux données d'apprentissage à tour de rôle. Aucune des étapes ne sera exposée aux données de test : il n'y aura pas de fuite !

Une fois que l'ensemble du pipeline a été entraîné, il est utilisé pour faire des prédictions sur les données de test.

Les données sont disponibles sous la forme de flights, qui a été divisé de manière aléatoire en flights_train et flights_test.

Cet exercice fait partie du cours

<cours>Apprentissage automatique avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Importez la classe permettant de créer un pipeline.
Créez un objet pipeline et spécifiez les étapes indexer, onehot, assembler et regression, dans cet ordre.
Entraînez le pipeline sur les données d'entraînement.
Faites des prévisions sur la base des données d'essai.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)

Modifier et exécuter le code