Random Forest auswerten
In dieser letzten Übung bewertest du die Ergebnisse der Kreuzvalidierung für ein Random Forest-Modell.
Die folgenden sind bereits erstellt worden:
cv
- ein Kreuzvalidator, der bereits an die Trainingsdaten angepasst wurdeevaluator
- einBinaryClassificationEvaluator
Objekt undflights_test
- die Testdaten.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Druckt eine Liste der durchschnittlichen AUC-Metriken für alle Modelle im Parameterraster.
- Zeige den durchschnittlichen AUC für das beste Modell an. Dies wird die größte AUC in der Liste sein.
- Drucke eine Erklärung der
maxDepth
undfeatureSubsetStrategy
Parameter für das beste Modell. - Zeige den AUC für die besten Modellvorhersagen für die Testdaten an.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))