MulaiMulai sekarang secara gratis

Model durasi penerbangan: Model pipeline

Sekarang Anda siap untuk menyatukan tahapan tersebut dalam sebuah pipeline.

Anda akan membangun pipeline lalu melatih pipeline pada data latih. Ini akan menerapkan masing-masing tahapan dalam pipeline ke data latih secara berurutan. Tidak satu pun tahapan akan terpapar data uji sama sekali: tidak akan ada kebocoran!

Setelah seluruh pipeline selesai dilatih, pipeline akan digunakan untuk membuat prediksi pada data uji.

Data tersedia sebagai flights, yang telah dibagi secara acak menjadi flights_train dan flights_test.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor kelas untuk membuat pipeline.
  • Buat objek pipeline dan tentukan tahapan indexer, onehot, assembler, dan regression, dalam urutan tersebut.
  • Latih pipeline pada data latih.
  • Buat prediksi pada data uji.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import class for creating a pipeline
from pyspark.____ import ____

# Construct a pipeline
pipeline = ____(____=[____])

# Train the pipeline on the training data
pipeline = pipeline.____(____)

# Make predictions on the testing data
predictions = ____.____(____)
Edit dan Jalankan Kode