Verspätete Flüge mit einem Random Forest
In dieser Übung kombinierst du Kreuzvalidierung und Ensemble-Methoden. Du trainierst einen Random Forest-Klassifikator, um verspätete Flüge vorherzusagen, und wählst dabei mithilfe von Kreuzvalidierung die besten Werte für die Modellparameter aus.
Für die folgenden Parameter findest du gute Werte:
featureSubsetStrategy
— die Anzahl der Merkmale, die bei der Aufteilung an jedem Knoten berücksichtigt werden müssen, undmaxDepth
– die maximale Anzahl von Teilungen entlang eines beliebigen Zweigs.
Leider dauert der Aufbau dieses Modells zu lange, sodass wir die Methode „ .fit()
“ nicht in der Pipeline ausführen werden.
Die Klasse „ RandomForestClassifier
“ wurde schon in die Sitzung reingeschrieben.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Mach ein Random-Forest-Klassifikator-Objekt.
- Erstell ein Parameter-Grid-Builder-Objekt. Füge Gitterpunkte für die Parameter „
featureSubsetStrategy
“ und „maxDepth
“ hinzu. - Erstell einen Evaluator für binäre Klassifizierungen.
- Erstell ein Cross-Validator-Objekt und gib dabei den Schätzer, das Parametergitter und den Evaluator an. Wähle die 5-fache Kreuzvalidierung.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)