1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Model doby letu: pipeline model

Teď je čas propojit všechny fáze dohromady do pipeline.

Sestavíš pipeline a pak ji natrénuješ na trénovacích datech. Každá fáze pipeline se postupně aplikuje na trénovací data. Testovací data nebudou v průběhu trénování vůbec použita – žádný únik dat nenastane!

Jakmile bude celá pipeline natrénovaná, použiješ ji k předpovědím na testovacích datech.

Data jsou dostupná jako flights, která byla náhodně rozdělena na flights_train a flights_test.

Pokyny

100 XP
  • Importuj třídu pro vytvoření pipeline.
  • Vytvoř objekt pipeline a zadej fáze indexer, onehot, assembler a regression v tomto pořadí.
  • Natrénuj pipeline na trénovacích datech.
  • Proveď předpovědi na testovacích datech.