Verspätete Flüge mit einem Zufallswald
In dieser Übung bringst du Kreuzvalidierung und Ensemble-Methoden zusammen. Du trainierst einen Random Forest-Klassifikator, um verspätete Flüge vorherzusagen, und wählst mithilfe von Kreuzvalidierung die besten Werte für die Modellparameter aus.
Du wirst gute Werte für die folgenden Parameter finden:
featureSubsetStrategy
- die Anzahl der zu berücksichtigenden Merkmale für die Aufteilung an jedem Knoten undmaxDepth
- die maximale Anzahl von Splits entlang eines Zweigs.
Leider dauert der Aufbau dieses Modells zu lange, deshalb werden wir die Methode .fit()
nicht in der Pipeline ausführen.
Die Klasse RandomForestClassifier
ist bereits in die Sitzung importiert worden.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Erstelle ein Random Forest Classifier Objekt.
- Erstelle ein Parameter Grid Builder Objekt. Füge Rasterpunkte für die Parameter
featureSubsetStrategy
undmaxDepth
hinzu. - Erstelle einen binären Klassifizierungsauswerter.
- Erstelle ein Kreuzvalidator-Objekt, indem du den Schätzer, das Parameterraster und den Auswerter angibst. Wähle die 5-fache Kreuzvalidierung.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)