Ritardi dei voli con Gradient-Boosted Trees
In precedenza hai costruito un classificatore per i voli che potrebbero subire ritardi usando un Decision Tree. In questo esercizio confronterai un modello Decision Tree con un modello Gradient-Boosted Trees.
I dati dei voli sono stati suddivisi casualmente in flights_train e flights_test.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Importa le classi necessarie per creare i classificatori Decision Tree e Gradient-Boosted Tree.
- Crea i classificatori Decision Tree e Gradient-Boosted Tree. Addestrali sui dati di training.
- Crea un evaluator e calcola l'AUC sui dati di test per entrambi i classificatori. Quale modello va meglio?
- Per il classificatore Gradient-Boosted Tree stampa il numero di alberi e l'importanza relativa delle feature.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)