Model vluchtduur: pipelinemodel
Je bent nu klaar om die stages samen te voegen in een pipeline.
Je bouwt de pipeline en traint die vervolgens op de trainingsdata. Daarmee pas je elke afzonderlijke stage in de pipeline achter elkaar toe op de trainingsdata. Geen van de stages wordt blootgesteld aan de testdata: er is geen leakage!
Zodra de volledige pipeline is getraind, gebruik je die om voorspellingen te doen op de testdata.
De gegevens zijn beschikbaar als flights, die willekeurig is gesplitst in flights_train en flights_test.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Importeer de klasse om een pipeline te maken.
- Maak een pipeline-object en specificeer de stages
indexer,onehot,assemblerenregression, in deze volgorde. - Train de pipeline op de trainingsdata.
- Maak voorspellingen op de testdata.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)