Verspätete Flüge mit Gradient-Boosted Trees
Du hast schon mal einen Klassifikator für Flüge erstellt, die wahrscheinlich Verspätung haben, und zwar mit einem Entscheidungsbaum. In dieser Übung vergleichst du ein Entscheidungsbaummodell mit einem Gradient-Boosted-Trees-Modell.
Die Flugdaten wurden nach dem Zufallsprinzip in „ flights_train
“ und „ flights_test
“ aufgeteilt.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Importiere die Klassen, die du brauchst, um Entscheidungsbaum- und Gradient-Boosted-Tree-Klassifikatoren zu erstellen.
- Erstell Entscheidungsbaum- und Gradient-Boosted-Tree-Klassifikatoren. Trainiere mit den Trainingsdaten.
- Mach einen Evaluator und berechne den AUC-Wert für die Testdaten beider Klassifikatoren. Welches Modell ist besser?
- Für den Gradient-Boosted Tree-Klassifikator die Anzahl der Bäume und die relative Wichtigkeit der Merkmale ausgeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the classes required
from pyspark.ml.____ import ____, ____
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Create model objects and train on training data
tree = ____().____(____)
gbt = ____().____(____)
# Compare AUC on testing data
evaluator = ____()
print(evaluator.____(tree.____(____)))
print(evaluator.____(gbt.____(____)))
# Find the number of trees and the relative importance of features
print(gbt.____)
print(gbt.____)