CommencerCommencer gratuitement

Vols retardés avec arbres à gradient boosté

Vous avez précédemment créé un classificateur pour les vols susceptibles d'être retardés à l'aide d'un arbre de décision. Dans cet exercice, vous allez comparer un modèle d'arbre de décision à un modèle d'arbres boostés par gradient.

Les données relatives aux vols ont été réparties de manière aléatoire entre flights_train et flights_test.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez les classes nécessaires pour créer les classificateurs Arbre de décision et Arbre à gradient ascendant.
  • Créer des classificateurs d'arbres de décision et d'arbres à gradient boosté. Entraînez-vous sur les données d'entraînement.
  • Créez un évaluateur et calculez l'AUC sur les données de test pour les deux classificateurs. Quel modèle est le plus performant ?
  • Pour le classificateur Gradient-Boosted Tree, veuillez imprimer le nombre d'arbres et l'importance relative des caractéristiques.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)

# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))

# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)
Modifier et exécuter le code