Random Forest evalueren
In deze laatste oefening ga je de resultaten van cross-validatie op een Random Forest-model evalueren.
De volgende objecten zijn al aangemaakt:
cv— een cross-validator die al is getraind op de trainingsgegevensevaluator— eenBinaryClassificationEvaluator-object enflights_test— de testgegevens.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Print een lijst met gemiddelde AUC-metrics voor alle modellen in het parameterrooster.
- Toon de gemiddelde AUC voor het beste model. Dit is de grootste AUC in de lijst.
- Print een uitleg van de parameters
maxDepthenfeatureSubsetStrategyvoor het beste model. - Toon de AUC voor de voorspellingen van het beste model op de testgegevens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))