Aan de slagGa gratis aan de slag

Vertraagde vluchten met Gradient-Boosted Trees

Eerder heb je een classifier gebouwd voor vluchten die waarschijnlijk vertraagd zijn met een Decision Tree. In deze oefening vergelijk je een Decision Tree-model met een Gradient-Boosted Trees-model.

De flightgegevens zijn willekeurig opgesplitst in flights_train en flights_test.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer de classes die nodig zijn om Decision Tree- en Gradient-Boosted Tree-classifiers te maken.
  • Maak Decision Tree- en Gradient-Boosted Tree-classifiers. Train ze op de trainingsdata.
  • Maak een evaluator en bereken de AUC op de testdata voor beide classifiers. Welk model presteert beter?
  • Print voor de Gradient-Boosted Tree-classifier het aantal bomen en de relatieve belangrijkheid van de features.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)

# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))

# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)
Code bewerken en uitvoeren