Uçuş süresi modeli: Kalkış havaalanını eklemek
Bazı havaalanları diğerlerinden daha yoğundur. Bazıları da daha büyüktür. Büyük ya da yoğun havaalanlarından kalkan uçaklar, taksi yapmaya ya da kalkış sırasını beklemeye daha fazla zaman harcayabilir. Bu yüzden bir uçuşun süresinin yalnızca kat edilen mesafeye değil, aynı zamanda uçağın kalktığı havaalanına da bağlı olması mantıklıdır.
Kalkış havaalanını bir öngörücü olarak dahil ederek regresyon modelini biraz daha sofistike hale getireceksin.
Bu veriler eğitim ve test kümelerine ayrıldı ve flights_train ile flights_test olarak hazır. org sütununda tutulan kalkış havaalanı önce org_idx olarak indekslendi, ardından tek-sıcak kodlama ile org_dummy haline getirildi. İlk birkaç kayıt terminalde gösteriliyor.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Eğitim verilerine bir doğrusal regresyon modeli uydur.
- Test verileri için tahminler yap.
- Test verilerindeki tahminler için RMSE hesapla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)