Model durasi penerbangan: Menambahkan waktu keberangkatan
Pada latihan sebelumnya, waktu keberangkatan dibagi ke dalam bucket dan diubah menjadi variabel dummy. Sekarang Anda akan menyertakan variabel dummy tersebut dalam model regresi untuk durasi penerbangan.
Data berada di flights. Kolom km, org_dummy, dan depart_dummy telah digabungkan menjadi features, di mana km berada pada indeks 0, org_dummy berada pada indeks 1 hingga 7, dan depart_dummy pada indeks 8 hingga 14.
Data telah dipisah menjadi himpunan pelatihan dan pengujian, dan sebuah model regresi linear, regression, telah dibangun pada data pelatihan. Prediksi telah dibuat pada data pengujian dan tersedia sebagai predictions.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Temukan RMSE untuk prediksi pada data pengujian.
- Temukan rata-rata waktu yang dihabiskan di darat untuk penerbangan yang berangkat dari OGG antara 21:00 dan 24:00.
- Temukan rata-rata waktu yang dihabiskan di darat untuk penerbangan yang berangkat dari OGG antara 03:00 dan 06:00.
- Temukan rata-rata waktu yang dihabiskan di darat untuk penerbangan yang berangkat dari JFK antara 03:00 dan 06:00.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)