Construindo um modelo de regressão

Uma das grandes vantagens do módulo ML do PySpark é que a maioria dos algoritmos pode ser testada sem mudar muito o código. Random Forest Regression é um modelo de ensemble relativamente simples, usando bagging para o ajuste. Outro modelo de ensemble baseado em árvores é o Gradient Boosted Trees, que usa uma abordagem diferente chamada boosting para ajustar. Neste exercício, vamos treinar um GBTRegressor.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

Importe GBTRegressor de pyspark.ml.regression, que é o mesmo módulo de RandomForestRegressor.
Instancie GBTRegressor com featuresCol definido para a coluna vetorial dos nossos recursos, chamada features, labelCol definido para nossa variável dependente, SALESCLOSEPRICE, e o seed aleatório como 42.
Treine o modelo chamando fit() em gbt com os dados de treino importados, train_df.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from ____ import ____

# Train a Gradient Boosted Trees (GBT) model.
gbt = ____(featuresCol=____,
                           labelCol=____,
                           predictionCol="Prediction_Price",
                           seed=____
                           )

# Train model.
model = gbt.fit(train_df)

Editar e executar o código