1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Budowanie modelu regresji

Jedną z największych zalet modułu PySpark ML jest to, że większość algorytmów można wypróbować i przetestować bez większych zmian w kodzie. Regresja lasów losowych to dość prosty model zespołowy, który do dopasowania wykorzystuje metodę baggingu. Innym modelem zespołowym opartym na drzewach jest Gradient Boosted Trees – stosuje on odmienne podejście zwane boostingiem. W tym ćwiczeniu wytrenujemy model GBTRegressor.

Instrukcje

100 XP
  • Zaimportuj GBTRegressor z modułu pyspark.ml.regression – tego samego, z którego pochodzi RandomForestRegressor.
  • Utwórz instancję GBTRegressor, ustawiając parametr featuresCol na nazwę kolumny wektorowej z cechami (features), parametr labelCol na nazwę zmiennej zależnej (SALESCLOSEPRICE) oraz losowy parametr seed na wartość 42.
  • Wytrenuj model, wywołując metodę fit() na obiekcie gbt z zaimportowanymi danymi treningowymi train_df.