Vertraagde vluchten met Gradient-Boosted Trees
Eerder heb je een classifier gebouwd voor vluchten die waarschijnlijk vertraagd zijn met een Decision Tree. In deze oefening vergelijk je een Decision Tree-model met een Gradient-Boosted Trees-model.
De flightgegevens zijn willekeurig opgesplitst in flights_train en flights_test.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Importeer de classes die nodig zijn om Decision Tree- en Gradient-Boosted Tree-classifiers te maken.
- Maak Decision Tree- en Gradient-Boosted Tree-classifiers. Train ze op de trainingsdata.
- Maak een evaluator en bereken de AUC op de testdata voor beide classifiers. Welk model presteert beter?
- Print voor de Gradient-Boosted Tree-classifier het aantal bomen en de relatieve belangrijkheid van de features.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)