Avaliando a Floresta Aleatória
Neste exercício final, você vai avaliar os resultados da validação cruzada em um modelo Random Forest.
Já foram criados:
cv
- um validador cruzado que já foi ajustado aos dados de treinamentoevaluator
— um objetoBinaryClassificationEvaluator
\
eflights_test
— os dados dos testes.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Imprima uma lista das métricas AUC médias em todos os modelos na grade de parâmetros.
- Mostra a AUC média do melhor modelo. Esse vai ser o maior AUC da lista.
- Imprima uma explicação dos parâmetros “
maxDepth
” e “featureSubsetStrategy
” para o melhor modelo. - Mostra a AUC para as melhores previsões do modelo nos dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))