Modèle de durée de vol : Modèle de pipeline
Vous êtes maintenant prêt à assembler ces étapes dans un pipeline.
Vous allez construire le pipeline, puis l'entraîner à l'aide des données d'entraînement. Cela appliquera chacune des étapes individuelles du pipeline aux données d'entraînement, l'une après l'autre. Aucune des étapes ne sera exposée aux données de test : il n'y aura aucune fuite.
Une fois que l'ensemble du pipeline aura été formé, il sera utilisé pour établir des prévisions sur les données de test.
Les données sont disponibles à l'adresse flights
, qui a été divisée de manière aléatoire en flights_train
et flights_test
.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez la classe permettant de créer un pipeline.
- Veuillez créer un objet pipeline et spécifiez les étapes «
indexer
», «onehot
», «assembler
» et «regression
», dans cet ordre. - Entraînez le pipeline sur les données d'entraînement.
- Effectuez des prédictions sur les données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)