IniziaInizia gratis

Ritardi dei voli con Gradient-Boosted Trees

In precedenza hai costruito un classificatore per i voli che potrebbero subire ritardi usando un Decision Tree. In questo esercizio confronterai un modello Decision Tree con un modello Gradient-Boosted Trees.

I dati dei voli sono stati suddivisi casualmente in flights_train e flights_test.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Importa le classi necessarie per creare i classificatori Decision Tree e Gradient-Boosted Tree.
  • Crea i classificatori Decision Tree e Gradient-Boosted Tree. Addestrali sui dati di training.
  • Crea un evaluator e calcola l'AUC sui dati di test per entrambi i classificatori. Quale modello va meglio?
  • Per il classificatore Gradient-Boosted Tree stampa il numero di alberi e l'importanza relativa delle feature.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)

# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))

# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)
Modifica ed esegui il codice