Voos atrasados com uma floresta aleatória
Neste exercício, você reunirá métodos de validação cruzada e de conjunto. Você treinará um classificador Random Forest para prever voos atrasados, usando validação cruzada para escolher os melhores valores para os parâmetros do modelo.
Você encontrará bons valores para os seguintes parâmetros:
featureSubsetStrategy- o número de recursos a serem considerados para a divisão em cada nó emaxDepth- o número máximo de divisões em qualquer ramo.
Infelizmente, a criação desse modelo leva muito tempo, portanto, não executaremos o método .fit() no pipeline.
A classe RandomForestClassifier já foi importada para a sessão.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Crie um objeto classificador de floresta aleatória.
- Crie um objeto construtor de grade de parâmetros. Adicione pontos de grade para os parâmetros
featureSubsetStrategyemaxDepth. - Criar um avaliador de classificação binária.
- Crie um objeto cross-validator, especificando o estimador, a grade de parâmetros e o avaliador. Escolha a validação cruzada 5 vezes.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)