1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

Model doby letu: fáze pipeline

Teď si vytvoříš jednotlivé fáze pipeline pro model doby letu. V dalším cvičení je pak použiješ k sestavení pipeline a trénování regresního modelu.

Třídy StringIndexer, OneHotEncoder, VectorAssembler a LinearRegression jsou už naimportované.

指示

100 XP
  • Vytvoř indexer, který převede sloupec 'org' na indexovaný sloupec s názvem 'org_idx'.
  • Vytvoř one-hot encoder, který převede sloupce 'org_idx' a 'dow' na sloupce s dummy proměnnými s názvy 'org_dummy' a 'dow_dummy'.
  • Vytvoř assembler, který spojí sloupec 'km' s oběma sloupci dummy proměnných. Výstupní sloupec pojmenuj 'features'.
  • Vytvoř objekt lineární regrese pro predikci doby letu.

Může se ti hodit podívat se zpět na slajdy z předchozích lekcí v panelu Slides vedle IPython Shell.