CommencerCommencer gratuitement

Vols retardés avec les arbres boostés par gradient

Vous avez précédemment construit un classificateur pour les vols susceptibles d'être retardés à l'aide d'un arbre de décision. Dans cet exercice, vous comparerez un modèle d'arbre de décision à un modèle d'arbres boostés par gradient.

Les données relatives aux vols ont été réparties de manière aléatoire entre flights_train et flights_test.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Importez les classes nécessaires pour créer des classificateurs d'arbres de décision et d'arbres boostés par gradient.
  • Créez des classificateurs d'arbres de décision et d'arbres boostés par gradient. Entraînez-vous sur les données d'entraînement.
  • Créez un évaluateur et calculez l'AUC sur les données de test pour les deux classificateurs. Quel est le modèle le plus performant ?
  • Pour le classificateur Gradient-Boosted Tree, imprimez le nombre d'arbres et l'importance relative des caractéristiques.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)

# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))

# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)
Modifier et exécuter le code