BaşlayınÜcretsiz Başlayın

En iyi uçuş süresi modelini incelemek

Uçuş süresini tahmin eden doğrusal regresyon modeli için iyi parametreler bulmak üzere bir CrossValidator kurdun.

Model pipeline’ı, sırayla çalışan birden çok aşamadan oluşur (StringIndexer, OneHotEncoder, VectorAssembler ve LinearRegression türünde nesneler). Aşamalar, pipeline nesnesindeki stages özniteliğiyle erişilebilir. Bunlar bir listeyle temsil edilir ve listede göründükleri sırayla yürütülür.

Şimdi pipeline’a daha yakından bakacak, aşamaları ayıracak ve test verisi üzerinde tahmin yapmak için kullanacaksın.

Aşağıdaki nesneler zaten oluşturuldu:

  • cv — eğitilmiş bir CrossValidatorModel nesnesi ve
  • evaluator — bir RegressionEvaluator nesnesi.

Uçuş verileri rastgele olarak flights_train ve flights_test şeklinde ayrıldı.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • En iyi modeli getir.
  • En iyi modeldeki aşamalara bak.
  • Doğrusal regresyon aşamasını izole et ve parametrelerini çıkar.
  • En iyi modeli kullanarak test verisi üzerinde tahmin üret ve RMSE’yi hesapla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Get the best model from cross validation
best_model = cv.____

# Look at the stages in the best model
print(best_model.____)

# Get the parameters for the LinearRegression object in the best model
best_model.____.extractParamMap()

# Generate predictions on testing data using the best model then calculate RMSE
predictions = ____.____(____)
print("RMSE =", ____.____(____))
Kodu Düzenle ve Çalıştır