1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Rozbor nejlepšího modelu délky letu

Právě jsi nastavil/a CrossValidator pro hledání vhodných parametrů modelu lineární regrese predikujícího délku letu.

Pipeline modelu má několik fází (objekty typu StringIndexer, OneHotEncoder, VectorAssembler a LinearRegression), které se spouštějí postupně za sebou. Fáze jsou dostupné jako atribut stages na objektu pipeline. Jsou uloženy jako seznam a vykonávají se v pořadí, v jakém se v něm nacházejí.

Teď se na pipeline podíváme zblízka — rozdělíme jednotlivé fáze a použijeme ji k predikcím na testovacích datech.

Následující objekty už jsou připraveny:

  • cv — natrénovaný objekt CrossValidatorModel a
  • evaluator — objekt RegressionEvaluator.

Data o letech byla náhodně rozdělena na flights_train a flights_test.

Pokyny

100 XP
  • Získej nejlepší model.
  • Prohlédni si fáze v nejlepším modelu.
  • Vyizoluj fázi lineární regrese a extrahuj její parametry.
  • Použij nejlepší model k vytvoření predikcí na testovacích datech a vypočítej RMSE.