1. Learn
  2. /
  3. कोर्स
  4. /
  5. Uczenie maszynowe z PySpark

Connected

अभ्यास

Analiza najlepszego modelu czasu trwania lotu

Właśnie skonfigurowano obiekt CrossValidator w celu znalezienia dobrych parametrów dla modelu regresji liniowej przewidującego czas trwania lotu.

Potok modelu składa się z wielu etapów (obiektów typu StringIndexer, OneHotEncoder, VectorAssembler i LinearRegression), które są wykonywane kolejno. Etapy są dostępne jako atrybut stages obiektu potoku. Są one reprezentowane przez listę, a kolejność ich wykonania odpowiada kolejności na tej liście.

Teraz przyjrzysz się bliżej temu potokowi: wyodrębnisz poszczególne etapy i użyjesz modelu do generowania predykcji na danych testowych.

Następujące obiekty zostały już utworzone:

  • cv — wytrenowany obiekt CrossValidatorModel oraz
  • evaluator — obiekt RegressionEvaluator.

Dane dotyczące lotów zostały losowo podzielone na zbiory flights_train i flights_test.

निर्देश

100 XP
  • Pobierz najlepszy model.
  • Sprawdź etapy wchodzące w skład najlepszego modelu.
  • Wyodrębnij etap regresji liniowej i pobierz jego parametry.
  • Użyj najlepszego modelu do wygenerowania predykcji na danych testowych i oblicz RMSE.