Basit uçuş süresi modelini çapraz doğrulama
Uçuş süresini tahmin etmek için birkaç model kurup bunları basit bir eğitim/test ayrımıyla değerlendirdin. Ancak, çapraz doğrulama model performansını değerlendirmek için çok daha iyi bir yöntem sunar.
Bu egzersizde, çapraz doğrulama kullanarak uçuş süresi için basit bir model eğiteceksin. Seyahat süresi genelde mesafeyle güçlü bir şekilde ilişkilidir, bu yüzden tek başına km sütununu kullanmak bile fena olmayan bir model verebilir.
Veriler rastgele olarak flights_train ve flights_test olarak bölündü.
Şu sınıflar zaten içe aktarıldı: LinearRegression, RegressionEvaluator, ParamGridBuilder ve CrossValidator.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Boş bir parametre ızgarası oluştur.
- Doğrusal regresyon modeli kurmak ve değerlendirmek için nesneler oluştur. Model "duration" alanını tahmin etmelidir.
- Bir çapraz doğrulayıcı nesnesi oluştur.
estimator,estimatorParamMapsveevaluatorargümanları için değerler ver. 5 katlı çapraz doğrulama seç. - Modeli eğitim verisinin birden çok katı üzerinde eğit ve test et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create an empty parameter grid
params = ____().____()
# Create objects for building and evaluating a regression model
regression = ____(____)
evaluator = ____(____)
# Create a cross validator
cv = ____(estimator=____, estimatorParamMaps=____, evaluator=____, ____)
# Train and test model on multiple folds of the training data
cv = cv.____(____)
# NOTE: Since cross-valdiation builds multiple models, the fit() method can take a little while to complete.