1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Křížová validace jednoduchého modelu doby letu

Už máš za sebou několik modelů pro předpovídání doby letu a vyhodnotil/a jsi je pomocí jednoduchého rozdělení na trénovací a testovací sadu. Křížová validace ale nabízí mnohem lepší způsob, jak výkon modelu otestovat.

V tomto cvičení natrénuješ pomocí křížové validace jednoduchý model pro předpovídání doby letu. Cestovní čas obvykle silně koreluje se vzdáleností, takže samotný sloupec km by měl dát solidní model.

Data byla náhodně rozdělena na flights_train a flights_test.

Následující třídy jsou již naimportovány: LinearRegression, RegressionEvaluator, ParamGridBuilder a CrossValidator.

Pokyny

100 XP
  • Vytvoř prázdnou mřížku parametrů.
  • Vytvoř objekty pro sestavení a vyhodnocení modelu lineární regrese. Model by měl předpovídat pole "duration".
  • Vytvoř objekt křížového validátoru. Zadej hodnoty pro argumenty estimator, estimatorParamMaps a evaluator. Zvol 5-násobnou křížovou validaci.
  • Natrénuj a otestuj model napříč více záhyby trénovacích dat.