Evaluación de Random Forest
En este ejercicio final evaluarás los resultados de la validación cruzada en un modelo de Bosque Aleatorio.
Ya se han creado los siguientes:
cv
- un validador cruzado que ya se ha ajustado a los datos de entrenamientoevaluator
- un objetoBinaryClassificationEvaluator
yflights_test
- los datos de la prueba.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Imprime una lista de las métricas AUC medias de todos los modelos de la parrilla de parámetros.
- Muestra el AUC medio del mejor modelo. Esta será la AUC más grande de la lista.
- Imprime una explicación de los parámetros
maxDepth
yfeatureSubsetStrategy
para el mejor modelo. - Muestra el AUC de las mejores predicciones del modelo en los datos de prueba.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))