Voos atrasados com uma Random Forest
Neste exercício, você vai juntar a validação cruzada com os métodos de conjunto. Você vai treinar um classificador Random Forest pra prever voos atrasados, usando validação cruzada pra escolher os melhores valores pros parâmetros do modelo.
Você vai achar bons valores para os seguintes parâmetros:
featureSubsetStrategy
— o número de características a considerar para a divisão em cada nó emaxDepth
— o número máximo de divisões ao longo de qualquer ramo.
Infelizmente, construir esse modelo leva muito tempo, então não vamos usar o método “ .fit()
” no pipeline.
A classe RandomForestClassifier
já foi importada para a sessão.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Crie um objeto classificador de floresta aleatória.
- Crie um objeto criador de grade de parâmetros. Adicione pontos de grade para os parâmetros “
featureSubsetStrategy
” e “maxDepth
”. - Crie um avaliador de classificação binária.
- Crie um objeto cross-validator, especificando o estimador, a grade de parâmetros e o avaliador. Escolha a validação cruzada quíntupla.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)