Aan de slagGa gratis aan de slag

Random Forest evalueren

In deze laatste oefening ga je de resultaten van cross-validatie op een Random Forest-model evalueren.

De volgende objecten zijn al aangemaakt:

  • cv — een cross-validator die al is getraind op de trainingsgegevens
  • evaluator — een BinaryClassificationEvaluator-object en
  • flights_test — de testgegevens.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

  • Print een lijst met gemiddelde AUC-metrics voor alle modellen in het parameterrooster.
  • Toon de gemiddelde AUC voor het beste model. Dit is de grootste AUC in de lijst.
  • Print een uitleg van de parameters maxDepth en featureSubsetStrategy voor het beste model.
  • Toon de AUC voor de voorspellingen van het beste model op de testgegevens.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Average AUC for each parameter combination in grid
print(cv.____)

# Average AUC for the best model
print(____(____))

# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))

# AUC for best model on testing data
print(evaluator.____(____.____(____)))
Code bewerken en uitvoeren