1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z PySpark

Connected

ćwiczenie

Kroswalidacja prostego modelu czasu trwania lotu

Masz już za sobą budowę kilku modeli do przewidywania czasu trwania lotu i oceniałeś je za pomocą prostego podziału na zbiór treningowy i testowy. Kroswalidacja oferuje jednak znacznie lepszy sposób oceny wydajności modelu.

W tym ćwiczeniu wytrenujemy prosty model czasu trwania lotu z użyciem kroswalidacji. Czas podróży jest zwykle silnie skorelowany z odległością, więc sama kolumna km powinna wystarczyć do zbudowania przyzwoitego modelu.

Dane zostały losowo podzielone na flights_train i flights_test.

Następujące klasy zostały już zaimportowane: LinearRegression, RegressionEvaluator, ParamGridBuilder oraz CrossValidator.

Instrukcje

100 XP
  • Utwórz pustą siatkę parametrów.
  • Utwórz obiekty służące do budowania i oceny modelu regresji liniowej. Model powinien przewidywać pole "duration".
  • Utwórz obiekt kroswalidatora. Podaj wartości argumentów estimator, estimatorParamMaps i evaluator. Wybierz kroswalidację 5-krotną.
  • Wytrenuj i przetestuj model na wielu złożeniach danych treningowych.