Voos atrasados com árvores impulsionadas por gradiente
Você já criou um classificador para voos que podem atrasar usando uma árvore de decisão. Neste exercício, você vai comparar um modelo de árvore de decisão com um modelo de árvores impulsionadas por gradiente.
Os dados dos voos foram divididos aleatoriamente em flights_train
e flights_test
.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importa as classes necessárias para criar classificadores de árvore de decisão e árvore com reforço de gradiente.
- Crie classificadores de árvore de decisão e árvore com reforço de gradiente. Treine com os dados de treinamento.
- Crie um avaliador e calcule a AUC nos dados de teste para ambos os classificadores. Qual modelo tem melhor desempenho?
- Para o classificador Gradient-Boosted Tree, imprima o número de árvores e a importância relativa das características.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)