Vols retardés avec les arbres boostés par gradient
Vous avez précédemment construit un classificateur pour les vols susceptibles d'être retardés à l'aide d'un arbre de décision. Dans cet exercice, vous comparerez un modèle d'arbre de décision à un modèle d'arbres boostés par gradient.
Les données relatives aux vols ont été réparties de manière aléatoire entre flights_train et flights_test.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Importez les classes nécessaires pour créer des classificateurs d'arbres de décision et d'arbres boostés par gradient.
- Créez des classificateurs d'arbres de décision et d'arbres boostés par gradient. Entraînez-vous sur les données d'entraînement.
- Créez un évaluateur et calculez l'AUC sur les données de test pour les deux classificateurs. Quel est le modèle le plus performant ?
- Pour le classificateur Gradient-Boosted Tree, imprimez le nombre d'arbres et l'importance relative des caractéristiques.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)