1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Sestavení regresního modelu

Jednou z velkých výhod modulu PySpark ML je, že většinu algoritmů lze vyzkoušet a otestovat bez větších změn v kódu. Random Forest Regression je poměrně jednoduchý ansámblový model, který k trénování využívá metodu bagging. Dalším stromovým ansámblovým modelem jsou Gradient Boosted Trees, které používají odlišný přístup zvaný boosting. V tomto cvičení natrénuješ model GBTRegressor.

Pokyny

100 XP
  • Importuj GBTRegressor z modulu pyspark.ml.regression – všimni si, že jde o stejný modul jako u RandomForestRegressor.
  • Vytvoř instanci GBTRegressor s parametrem featuresCol nastaveným na sloupcový vektor příznaků s názvem features, parametrem labelCol nastaveným na závislou proměnnou SALESCLOSEPRICE a náhodným seed s hodnotou 42.
  • Natrénuj model voláním fit() na objektu gbt s trénovacími daty train_df.