1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

cvičení

Křížová validace pipeline modelu pro délku letu

Model s křížovou validací, který jsi právě sestavil/a, byl jednoduchý – k předpovědi duration používal pouze km.

Dalším důležitým prediktorem délky letu je výchozí letiště. Z rušných letišť trvá odlet obvykle déle. Podívejme se, jestli přidání tohoto prediktoru model vylepší!

V tomto cvičení přidáš do modelu pole org. Protože je org kategorická proměnná, je potřeba ji nejdříve upravit: převést na index a zakódovat metodou one-hot encoding, než ji lze sestavit dohromady s km a použít k trénování regresního modelu. Všechny tyto kroky zabalíme do pipeline.

Následující objekty už jsou připravené:

  • params — prázdná mřížka parametrů
  • evaluator — vyhodnocovač regrese
  • regression — objekt LinearRegression s labelCol='duration'.

Třídy StringIndexer, OneHotEncoder, VectorAssembler a CrossValidator jsou už naimportované.

Pokyny

100 XP
  • Vytvoř string indexer. Jako vstupní a výstupní pole zadej org a org_idx.
  • Vytvoř one-hot encoder. Výstupní pole pojmenuj org_dummy.
  • Sestav pole km a org_dummy do jediného pole s názvem features.
  • Vytvoř pipeline z následujících operací: string indexer, one-hot encoder, assembler a lineární regrese. Na základě toho vytvoř křížový validátor.