MulaiMulai sekarang secara gratis

Model durasi penerbangan: Lebih banyak fitur!

Mari kita tambahkan lebih banyak fitur ke model. Ini tidak serta-merta menghasilkan model yang lebih baik. Menambahkan beberapa fitur bisa meningkatkan model. Menambahkan fitur lain justru bisa memperburuknya.

Lebih banyak fitur akan selalu membuat model lebih rumit dan lebih sulit diinterpretasikan.

Berikut fitur yang akan Anda sertakan pada model berikutnya:

  • km
  • org (bandara asal, one-hot encoded, 8 level)
  • depart (waktu keberangkatan, dibagi per interval 3 jam, one-hot encoded, 8 level)
  • dow (hari keberangkatan dalam sepekan, one-hot encoded, 7 level) dan
  • mon (bulan keberangkatan, one-hot encoded, 12 level).

Semua ini telah digabungkan ke dalam kolom features, yang merupakan representasi jarang dari 32 kolom (ingat bahwa one-hot encoding menghasilkan jumlah kolom yang satu lebih sedikit daripada jumlah level).

Data tersedia sebagai flights, dibagi secara acak menjadi flights_train dan flights_test.

Latihan ini didasarkan pada subset kecil dari data penerbangan.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Latih model regresi linear pada data pelatihan.
  • Hasilkan prediksi untuk data pengujian.
  • Hitung RMSE pada data pengujian.
  • Lihat koefisien model. Apakah ada yang bernilai nol?

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)
Edit dan Jalankan Kode