Model vluchtduur: pipelinemodel

Je bent nu klaar om die stages samen te voegen in een pipeline.

Je bouwt de pipeline en traint die vervolgens op de trainingsdata. Daarmee pas je elke afzonderlijke stage in de pipeline achter elkaar toe op de trainingsdata. Geen van de stages wordt blootgesteld aan de testdata: er is geen leakage!

Zodra de volledige pipeline is getraind, gebruik je die om voorspellingen te doen op de testdata.

De gegevens zijn beschikbaar als flights, die willekeurig is gesplitst in flights_train en flights_test.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Bekijk cursus

Oefeninstructies

Importeer de klasse om een pipeline te maken.
Maak een pipeline-object en specificeer de stages indexer, onehot, assembler en regression, in deze volgorde.
Train de pipeline op de trainingsdata.
Maak voorspellingen op de testdata.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)

Code bewerken en uitvoeren