Construindo um modelo de regressão
Uma das grandes vantagens do módulo ML do PySpark é que a maioria dos algoritmos pode ser testada sem mudar muito o código. Random Forest Regression é um modelo de ensemble relativamente simples, usando bagging para o ajuste. Outro modelo de ensemble baseado em árvores é o Gradient Boosted Trees, que usa uma abordagem diferente chamada boosting para ajustar. Neste exercício, vamos treinar um GBTRegressor.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Importe
GBTRegressordepyspark.ml.regression, que é o mesmo módulo deRandomForestRegressor. - Instancie
GBTRegressorcomfeaturesColdefinido para a coluna vetorial dos nossos recursos, chamadafeatures,labelColdefinido para nossa variável dependente,SALESCLOSEPRICE, e oseedaleatório como42. - Treine o modelo chamando
fit()emgbtcom os dados de treino importados,train_df.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from ____ import ____
# Train a Gradient Boosted Trees (GBT) model.
gbt = ____(featuresCol=____,
labelCol=____,
predictionCol="Prediction_Price",
seed=____
)
# Train model.
model = gbt.fit(train_df)