Uçuş süresi modeli: Pipeline modeli
Artık bu aşamaları bir pipeline içinde birleştirmeye hazırsın.
Pipeline'ı oluşturacak ve ardından eğitim verisi üzerinde eğiteceksin. Bu, pipeline içindeki her bir aşamanın sırayla eğitim verisine uygulanacağı anlamına gelir. Aşamaların hiçbiri test verisini görmeyecek: hiçbir sızıntı olmayacak!
Tüm pipeline eğitildikten sonra test verisi üzerinde tahmin yapmak için kullanılacak.
Veriler flights olarak mevcut ve rastgele şekilde flights_train ve flights_test olarak bölünmüş durumda.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Bir pipeline oluşturmak için gerekli sınıfı içe aktar.
- Bu sırayla
indexer,onehot,assemblerveregressionaşamalarını belirterek bir pipeline nesnesi oluştur. - Pipeline'ı eğitim verisi üzerinde eğit.
- Test verisi üzerinde tahminler yap.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)