Verspätete Flüge mit Gradient-Boosted Trees
Du hast zuvor mit Hilfe eines Entscheidungsbaums einen Klassifikator für Flüge mit Verspätungswahrscheinlichkeit erstellt. In dieser Übung vergleichst du ein Entscheidungsbaummodell mit einem Gradient-Boosted-Trees-Modell.
Die Flugdaten wurden nach dem Zufallsprinzip in flights_train
und flights_test
aufgeteilt.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klassen, die für die Erstellung von Entscheidungsbaum- und Gradient-Boosted Tree-Klassifikatoren benötigt werden.
- Erstelle Entscheidungsbaum- und Gradient-Boosted-Baum-Klassifikatoren. Trainiere mit den Trainingsdaten.
- Erstelle einen Evaluator und berechne den AUC für die Testdaten beider Klassifikatoren. Welches Modell schneidet besser ab?
- Für den Gradient-Boosted Tree Classifier druckst du die Anzahl der Bäume und die relative Wichtigkeit der Merkmale.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)