Verspätete Flüge mit einem Random Forest

In dieser Übung kombinierst du Kreuzvalidierung und Ensemble-Methoden. Du trainierst einen Random Forest-Klassifikator, um verspätete Flüge vorherzusagen, und wählst dabei mithilfe von Kreuzvalidierung die besten Werte für die Modellparameter aus.

Für die folgenden Parameter findest du gute Werte:

featureSubsetStrategy — die Anzahl der Merkmale, die bei der Aufteilung an jedem Knoten berücksichtigt werden müssen, und
maxDepth – die maximale Anzahl von Teilungen entlang eines beliebigen Zweigs.

Leider dauert der Aufbau dieses Modells zu lange, sodass wir die Methode „ .fit() “ nicht in der Pipeline ausführen werden.

Die Klasse „ RandomForestClassifier “ wurde schon in die Sitzung reingeschrieben.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Mach ein Random-Forest-Klassifikator-Objekt.
Erstell ein Parameter-Grid-Builder-Objekt. Füge Gitterpunkte für die Parameter „ featureSubsetStrategy “ und „ maxDepth “ hinzu.
Erstell einen Evaluator für binäre Klassifizierungen.
Erstell ein Cross-Validator-Objekt und gib dabei den Schätzer, das Parametergitter und den Evaluator an. Wähle die 5-fache Kreuzvalidierung.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)

Code bearbeiten und ausführen