Model durasi penerbangan: Hanya jarak
Dalam latihan ini Anda akan membangun model regresi untuk memprediksi durasi penerbangan (kolom duration).
Untuk saat ini Anda akan menjaga model tetap sederhana, hanya memasukkan jarak penerbangan (kolom km) sebagai prediktor.
Data berada di flights. Beberapa rekaman pertama ditampilkan di terminal. Data ini juga telah dibagi menjadi himpunan pelatihan dan pengujian dan tersedia sebagai flights_train dan flights_test.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Buat objek regresi linear. Tentukan nama kolom label. Latih pada data pelatihan.
- Buat prediksi pada data pengujian.
- Buat objek evaluator regresi dan gunakan untuk mengevaluasi RMSE pada data pengujian.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)
# Calculate the RMSE
____(____).____(predictions)