Avaliando e comparando algoritmos

Agora que criamos um novo modelo com GBTRegressor, é hora de compará-lo com nossa linha de base, o RandomForestRegressor. Para isso, vamos comparar as previsões de ambos os modelos com os dados reais e calcular RMSE e R^2.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

Importe RegressionEvaluator de pyspark.ml.evaluation para usá-lo mais adiante.
Inicialize RegressionEvaluator definindo labelCol como nossos dados reais, SALESCLOSEPRICE, e predictionCol como nossos dados previstos, Prediction_Price.
Para calcular nossas métricas, chame evaluate em evaluator com os valores de previsão preds e crie um dicionário com a chave evaluator.metricName e o valor rmse; faça o mesmo para a métrica r2.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from ____ import ____

# Select columns to compute test error
evaluator = ____(____=____, 
                                ____=____)
# Dictionary of model predictions to loop over
models = {'Gradient Boosted Trees': gbt_predictions, 'Random Forest Regression': rfr_predictions}
for key, preds in models.items():
  # Create evaluation metrics
  rmse = evaluator.____(____, {____: ____})
  r2 = evaluator.____(____, {____: ____})
  
  # Print Model Metrics
  print(key + ' RMSE: ' + str(rmse))
  print(key + ' R^2: ' + str(r2))

Editar e executar o código