Uçuş süresi modeli: Pipeline modeli
Artık bu aşamaları bir pipeline içinde birleştirmeye hazırsın.
Pipeline'ı oluşturacak ve ardından eğitim verisi üzerinde eğiteceksin. Bu, pipeline içindeki her bir aşamanın sırayla eğitim verisine uygulanacağı anlamına gelir. Aşamaların hiçbiri test verisini görmeyecek: hiçbir sızıntı olmayacak!
Tüm pipeline eğitildikten sonra test verisi üzerinde tahmin yapmak için kullanılacak.
Veriler flights olarak mevcut ve rastgele şekilde flights_train ve flights_test olarak bölünmüş durumda.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Machine Learning
Egzersiz talimatları
- Bir pipeline oluşturmak için gerekli sınıfı içe aktar.
- Bu sırayla
indexer,onehot,assemblerveregressionaşamalarını belirterek bir pipeline nesnesi oluştur. - Pipeline'ı eğitim verisi üzerinde eğit.
- Test verisi üzerinde tahminler yap.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)