Model durasi penerbangan: Model pipeline
Sekarang Anda siap untuk menyatukan tahapan tersebut dalam sebuah pipeline.
Anda akan membangun pipeline lalu melatih pipeline pada data latih. Ini akan menerapkan masing-masing tahapan dalam pipeline ke data latih secara berurutan. Tidak satu pun tahapan akan terpapar data uji sama sekali: tidak akan ada kebocoran!
Setelah seluruh pipeline selesai dilatih, pipeline akan digunakan untuk membuat prediksi pada data uji.
Data tersedia sebagai flights, yang telah dibagi secara acak menjadi flights_train dan flights_test.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Impor kelas untuk membuat pipeline.
- Buat objek pipeline dan tentukan tahapan
indexer,onehot,assembler, danregression, dalam urutan tersebut. - Latih pipeline pada data latih.
- Buat prediksi pada data uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)