Aan de slagGa gratis aan de slag

Model vluchtduur: pipelinemodel

Je bent nu klaar om die stages samen te voegen in een pipeline.

Je bouwt de pipeline en traint die vervolgens op de trainingsdata. Daarmee pas je elke afzonderlijke stage in de pipeline achter elkaar toe op de trainingsdata. Geen van de stages wordt blootgesteld aan de testdata: er is geen leakage!

Zodra de volledige pipeline is getraind, gebruik je die om voorspellingen te doen op de testdata.

De gegevens zijn beschikbaar als flights, die willekeurig is gesplitst in flights_train en flights_test.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer de klasse om een pipeline te maken.
  • Maak een pipeline-object en specificeer de stages indexer, onehot, assembler en regression, in deze volgorde.
  • Train de pipeline op de trainingsdata.
  • Maak voorspellingen op de testdata.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Code bewerken en uitvoeren