ComeçarComece de graça

Avaliando a Floresta Aleatória

Neste exercício final, você vai avaliar os resultados da validação cruzada em um modelo Random Forest.

Já foram criados:

  • cv - um validador cruzado que já foi ajustado aos dados de treinamento
  • evaluator — um objeto BinaryClassificationEvaluator\ e
  • flights_test — os dados dos testes.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Imprima uma lista das métricas AUC médias em todos os modelos na grade de parâmetros.
  • Mostra a AUC média do melhor modelo. Esse vai ser o maior AUC da lista.
  • Imprima uma explicação dos parâmetros “ maxDepth ” e “ featureSubsetStrategy ” para o melhor modelo.
  • Mostra a AUC para as melhores previsões do modelo nos dados de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Average AUC for each parameter combination in grid
print(cv.____)

# Average AUC for the best model
print(____(____))

# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))

# AUC for best model on testing data
print(evaluator.____(____.____(____)))
Editar e executar o código