Evaluación de Random Forest
En este ejercicio final, evaluarás los resultados de la validación cruzada en un modelo Random Forest.
Ya se han creado los siguientes:
cv
- un validador cruzado que ya se ha ajustado a los datos de entrenamientoevaluator
— un objetoBinaryClassificationEvaluator
flights_test
— los datos de las pruebas.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Imprime una lista de métricas AUC medias en todos los modelos de la cuadrícula de parámetros.
- Muestra el AUC promedio para el mejor modelo. Este será el AUC más grande de la lista.
- Imprime una explicación de los parámetros «
maxDepth
» y «featureSubsetStrategy
» para obtener el mejor modelo. - Muestra el AUC para las mejores predicciones del modelo en los datos de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))