Comece agoraComece grátis

Construindo um modelo de regressão

Uma das grandes vantagens do módulo ML do PySpark é que a maioria dos algoritmos pode ser testada sem mudar muito o código. Random Forest Regression é um modelo de ensemble relativamente simples, usando bagging para o ajuste. Outro modelo de ensemble baseado em árvores é o Gradient Boosted Trees, que usa uma abordagem diferente chamada boosting para ajustar. Neste exercício, vamos treinar um GBTRegressor.

Este exercicio faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercicio

  • Importe GBTRegressor de pyspark.ml.regression, que é o mesmo módulo de RandomForestRegressor.
  • Instancie GBTRegressor com featuresCol definido para a coluna vetorial dos nossos recursos, chamada features, labelCol definido para nossa variável dependente, SALESCLOSEPRICE, e o seed aleatório como 42.
  • Treine o modelo chamando fit() em gbt com os dados de treino importados, train_df.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from ____ import ____

# Train a Gradient Boosted Trees (GBT) model.
gbt = ____(featuresCol=____,
                           labelCol=____,
                           predictionCol="Prediction_Price",
                           seed=____
                           )

# Train model.
model = gbt.fit(train_df)
Editar e Executar Código