ComeçarComece de graça

Voos atrasados com uma floresta aleatória

Neste exercício, você reunirá métodos de validação cruzada e de conjunto. Você treinará um classificador Random Forest para prever voos atrasados, usando validação cruzada para escolher os melhores valores para os parâmetros do modelo.

Você encontrará bons valores para os seguintes parâmetros:

  • featureSubsetStrategy - o número de recursos a serem considerados para a divisão em cada nó e
  • maxDepth - o número máximo de divisões em qualquer ramo.

Infelizmente, a criação desse modelo leva muito tempo, portanto, não executaremos o método .fit() no pipeline.

A classe RandomForestClassifier já foi importada para a sessão.

Este exercício faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercício

  • Crie um objeto classificador de floresta aleatória.
  • Crie um objeto construtor de grade de parâmetros. Adicione pontos de grade para os parâmetros featureSubsetStrategy e maxDepth.
  • Criar um avaliador de classificação binária.
  • Crie um objeto cross-validator, especificando o estimador, a grade de parâmetros e o avaliador. Escolha a validação cruzada 5 vezes.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Editar e executar o código