Vols retardés avec arbres à gradient boosté
Vous avez précédemment créé un classificateur pour les vols susceptibles d'être retardés à l'aide d'un arbre de décision. Dans cet exercice, vous allez comparer un modèle d'arbre de décision à un modèle d'arbres boostés par gradient.
Les données relatives aux vols ont été réparties de manière aléatoire entre flights_train
et flights_test
.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez les classes nécessaires pour créer les classificateurs Arbre de décision et Arbre à gradient ascendant.
- Créer des classificateurs d'arbres de décision et d'arbres à gradient boosté. Entraînez-vous sur les données d'entraînement.
- Créez un évaluateur et calculez l'AUC sur les données de test pour les deux classificateurs. Quel modèle est le plus performant ?
- Pour le classificateur Gradient-Boosted Tree, veuillez imprimer le nombre d'arbres et l'importance relative des caractéristiques.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)