CommencerCommencer gratuitement

Vols retardés avec une forêt aléatoire

Dans cet exercice, vous réunirez les méthodes de validation croisée et d'ensemble. Vous allez former un classificateur Random Forest pour prédire les vols retardés, en utilisant la validation croisée pour choisir les meilleures valeurs pour les paramètres du modèle.

Vous trouverez de bonnes valeurs pour les paramètres suivants :

  • featureSubsetStrategy - le nombre de caractéristiques à prendre en compte pour le fractionnement à chaque nœud et
  • maxDepth - le nombre maximal de divisions le long d'une branche.

Malheureusement, la construction de ce modèle prend trop de temps, c'est pourquoi nous n'exécuterons pas la méthode .fit() sur le pipeline.

La classe RandomForestClassifier a déjà été importée dans la session.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Créez un objet classificateur de forêt aléatoire.
  • Créez un objet de construction de grille de paramètres. Ajoutez des points de grille pour les paramètres featureSubsetStrategy et maxDepth.
  • Créer un évaluateur de classification binaire.
  • Créez un objet de validation croisée, en spécifiant l'estimateur, la grille de paramètres et l'évaluateur. Choisissez la validation croisée 5 fois.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Modifier et exécuter le code