Retards de vols avec une forêt aléatoire
Dans cet exercice, vous allez associer la validation croisée et les méthodes d'ensemble. Vous allez former un classificateur Random Forest afin de prédire les retards de vols, en utilisant la validation croisée pour choisir les meilleures valeurs pour les paramètres du modèle.
Vous trouverez de bonnes valeurs pour les paramètres suivants :
featureSubsetStrategy
— le nombre de caractéristiques à prendre en compte pour la division à chaque nœud etmaxDepth
— le nombre maximal de divisions le long d'une branche.
Malheureusement, la construction de ce modèle prend trop de temps, nous n'exécuterons donc pas la méthode .fit()
sur le pipeline.
La classe RandomForestClassifier
a déjà été importée dans la session.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Créez un objet classificateur Random Forest.
- Créez un objet générateur de grille de paramètres. Veuillez ajouter des points de grille pour les paramètres «
featureSubsetStrategy
» et «maxDepth
». - Créer un évaluateur de classification binaire.
- Créez un objet cross-validator en spécifiant l'estimateur, la grille de paramètres et l'évaluateur. Veuillez sélectionner la validation croisée à 5 reprises.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)