Model durasi penerbangan: Menambahkan bandara asal
Beberapa bandara lebih sibuk daripada yang lain. Ada juga bandara yang lebih besar daripada yang lain. Penerbangan yang berangkat dari bandara besar atau sibuk cenderung menghabiskan lebih banyak waktu untuk taxiing atau menunggu giliran lepas landas. Maka masuk akal jika durasi penerbangan mungkin bergantung tidak hanya pada jarak yang ditempuh tetapi juga pada bandara tempat penerbangan berangkat.
Anda akan membuat model regresi sedikit lebih canggih dengan menyertakan bandara keberangkatan sebagai prediktor.
Data ini telah dibagi menjadi himpunan pelatihan dan pengujian, tersedia sebagai flights_train dan flights_test. Bandara asal, yang disimpan di kolom org, telah diindeks menjadi org_idx, yang kemudian di-one-hot encode menjadi org_dummy. Beberapa rekaman pertama ditampilkan di terminal.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Latih model regresi linear pada data pelatihan.
- Buat prediksi untuk data pengujian.
- Hitung RMSE untuk prediksi pada data pengujian.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)