Evaluación de Random Forest

En este ejercicio final evaluarás los resultados de la validación cruzada en un modelo de Bosque Aleatorio.

Ya se han creado los siguientes:

cv - un validador cruzado que ya se ha ajustado a los datos de entrenamiento
evaluator - un objeto BinaryClassificationEvaluator y
flights_test - los datos de la prueba.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

Imprime una lista de las métricas AUC medias de todos los modelos de la cuadrícula de parámetros.
Muestra el AUC medio del mejor modelo. Esta será la AUC más grande de la lista.
Imprime una explicación de los parámetros maxDepth y featureSubsetStrategy para el mejor modelo.
Muestra el AUC de las mejores predicciones del modelo en los datos de prueba.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Average AUC for each parameter combination in grid
print(cv.____)

# Average AUC for the best model
print(____(____))

# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))

# AUC for best model on testing data
print(evaluator.____(____.____(____)))

Editar y ejecutar código