Model durasi penerbangan: Menambahkan waktu keberangkatan
Pada latihan sebelumnya, waktu keberangkatan dibagi ke dalam bucket dan diubah menjadi variabel dummy. Sekarang Anda akan menyertakan variabel dummy tersebut dalam model regresi untuk durasi penerbangan.
Data berada di flights. Kolom km, org_dummy, dan depart_dummy telah digabungkan menjadi features, di mana km berada pada indeks 0, org_dummy berada pada indeks 1 hingga 7, dan depart_dummy pada indeks 8 hingga 14.
Data telah dipisah menjadi himpunan pelatihan dan pengujian, dan sebuah model regresi linear, regression, telah dibangun pada data pelatihan. Prediksi telah dibuat pada data pengujian dan tersedia sebagai predictions.
Latihan ini merupakan bagian dari kursus
Machine Learning dengan PySpark
Instruksi latihan
- Temukan RMSE untuk prediksi pada data pengujian.
- Temukan rata-rata waktu yang dihabiskan di darat untuk penerbangan yang berangkat dari OGG antara 21:00 dan 24:00.
- Temukan rata-rata waktu yang dihabiskan di darat untuk penerbangan yang berangkat dari OGG antara 03:00 dan 06:00.
- Temukan rata-rata waktu yang dihabiskan di darat untuk penerbangan yang berangkat dari JFK antara 03:00 dan 06:00.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)