Modèle de durée de vol : Modèle de pipeline
Vous êtes maintenant prêt à rassembler ces étapes dans un pipeline.
Vous construirez le pipeline et l'entraînerez ensuite sur les données d'entraînement. Cela permet d'appliquer chacune des étapes du pipeline aux données d'apprentissage à tour de rôle. Aucune des étapes ne sera exposée aux données de test : il n'y aura pas de fuite !
Une fois que l'ensemble du pipeline a été entraîné, il est utilisé pour faire des prédictions sur les données de test.
Les données sont disponibles sous la forme de flights, qui a été divisé de manière aléatoire en flights_train et flights_test.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe permettant de créer un pipeline.
- Créez un objet pipeline et spécifiez les étapes
indexer,onehot,assembleretregression, dans cet ordre. - Entraînez le pipeline sur les données d'entraînement.
- Faites des prévisions sur la base des données d'essai.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)