Évaluation de la forêt aléatoire
Dans cet exercice final, vous évaluerez les résultats de la validation croisée sur un modèle Random Forest.
Les éléments suivants ont déjà été créés :
cv
- un validateur croisé qui a déjà été ajusté aux données d'entraînementevaluator
— un objet d'BinaryClassificationEvaluator
flights_test
— les données des essais.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Imprimez une liste des mesures AUC moyennes pour tous les modèles de la grille de paramètres.
- Affichez l'AUC moyenne pour le meilleur modèle. Ce sera la plus grande AUC de la liste.
- Veuillez imprimer une explication des paramètres «
maxDepth
» et «featureSubsetStrategy
» pour le modèle le plus performant. - Affichez l'AUC pour les meilleures prédictions du modèle sur les données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Average AUC for each parameter combination in grid
print(cv.____)
# Average AUC for the best model
print(____(____))
# What's the optimal parameter value for maxDepth?
print(cv.____.explainParam('____'))
# What's the optimal parameter value for featureSubsetStrategy?
print(cv.____.____(____))
# AUC for best model on testing data
print(evaluator.____(____.____(____)))