Zufälligen Wald bewerten
In dieser letzten Übung wirst du die Ergebnisse der Kreuzvalidierung an einem Random-Forest-Modell auswerten.
Folgendes wurde bereits erstellt:
cv
- ein Kreuzvalidator, der schon an die Trainingsdaten angepasst wurdeevaluator
— ein Objekt vom Typ „BinaryClassificationEvaluator
“ undflights_test
– die Testdaten.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit PySpark
Anleitung zur Übung
- Druckt eine Liste der durchschnittlichen AUC-Metriken für alle Modelle im Parameterraster.
- Zeig die durchschnittliche AUC für das beste Modell an. Das wird der größte AUC in der Liste sein.
- Druck eine Erklärung der Parameter „
maxDepth
“ und „featureSubsetStrategy
“ für das beste Modell aus. - Zeig die AUC für die besten Modellvorhersagen auf den Testdaten an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))