Model durasi penerbangan: Model pipeline
Sekarang Anda siap untuk menyatukan tahapan tersebut dalam sebuah pipeline.
Anda akan membangun pipeline lalu melatih pipeline pada data latih. Ini akan menerapkan masing-masing tahapan dalam pipeline ke data latih secara berurutan. Tidak satu pun tahapan akan terpapar data uji sama sekali: tidak akan ada kebocoran!
Setelah seluruh pipeline selesai dilatih, pipeline akan digunakan untuk membuat prediksi pada data uji.
Data tersedia sebagai flights, yang telah dibagi secara acak menjadi flights_train dan flights_test.
Latihan ini merupakan bagian dari kursus
Machine Learning dengan PySpark
Instruksi latihan
- Impor kelas untuk membuat pipeline.
- Buat objek pipeline dan tentukan tahapan
indexer,onehot,assembler, danregression, dalam urutan tersebut. - Latih pipeline pada data latih.
- Buat prediksi pada data uji.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import class for creating a pipeline
from pyspark.____ import ____
# Construct a pipeline
pipeline = ____(____=[____])
# Train the pipeline on the training data
pipeline = pipeline.____(____)
# Make predictions on the testing data
predictions = ____.____(____)