Verspätete Flüge mit einem Random Forest
In dieser Übung kombinierst du Kreuzvalidierung und Ensemble-Methoden. Du trainierst einen Random Forest-Klassifikator, um verspätete Flüge vorherzusagen, und wählst dabei mithilfe von Kreuzvalidierung die besten Werte für die Modellparameter aus.
Für die folgenden Parameter findest du gute Werte:
featureSubsetStrategy— die Anzahl der Merkmale, die bei der Aufteilung an jedem Knoten berücksichtigt werden müssen, undmaxDepth– die maximale Anzahl von Teilungen entlang eines beliebigen Zweigs.
Leider dauert der Aufbau dieses Modells zu lange, sodass wir die Methode „ .fit() “ nicht in der Pipeline ausführen werden.
Die Klasse „ RandomForestClassifier “ wurde schon in die Sitzung reingeschrieben.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Mach ein Random-Forest-Klassifikator-Objekt.
- Erstell ein Parameter-Grid-Builder-Objekt. Füge Gitterpunkte für die Parameter „
featureSubsetStrategy“ und „maxDepth“ hinzu. - Erstell einen Evaluator für binäre Klassifizierungen.
- Erstell ein Cross-Validator-Objekt und gib dabei den Schätzer, das Parametergitter und den Evaluator an. Wähle die 5-fache Kreuzvalidierung.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)