Erste SchritteKostenlos loslegen

Verspätete Flüge mit einem Zufallswald

In dieser Übung bringst du Kreuzvalidierung und Ensemble-Methoden zusammen. Du trainierst einen Random Forest-Klassifikator, um verspätete Flüge vorherzusagen, und wählst mithilfe von Kreuzvalidierung die besten Werte für die Modellparameter aus.

Du wirst gute Werte für die folgenden Parameter finden:

  • featureSubsetStrategy - die Anzahl der zu berücksichtigenden Merkmale für die Aufteilung an jedem Knoten und
  • maxDepth - die maximale Anzahl von Splits entlang eines Zweigs.

Leider dauert der Aufbau dieses Modells zu lange, deshalb werden wir die Methode .fit() nicht in der Pipeline ausführen.

Die Klasse RandomForestClassifier ist bereits in die Sitzung importiert worden.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle ein Random Forest Classifier Objekt.
  • Erstelle ein Parameter Grid Builder Objekt. Füge Rasterpunkte für die Parameter featureSubsetStrategy und maxDepth hinzu.
  • Erstelle einen binären Klassifizierungsauswerter.
  • Erstelle ein Kreuzvalidator-Objekt, indem du den Schätzer, das Parameterraster und den Auswerter angibst. Wähle die 5-fache Kreuzvalidierung.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Bearbeiten und Ausführen von Code