CommencerCommencer gratuitement

Validation croisée d'un modèle simple de durée de vol

Vous avez déjà élaboré quelques modèles de prévision de la durée des vols et les avez évalués à l'aide d'une simple répartition train/test. Cependant, la validation croisée constitue un bien meilleur moyen d'évaluer les performances d'un modèle.

Dans cet exercice, vous allez former un modèle simple de durée de vol en utilisant la validation croisée. Le temps de trajet est généralement fortement corrélé à la distance, de sorte que l'utilisation de la seule colonne km devrait permettre d'obtenir un modèle convenable.

Les données ont été réparties de manière aléatoire entre flights_train et flights_test.

Les classes suivantes ont déjà été importées : LinearRegression, RegressionEvaluator, ParamGridBuilder et CrossValidator.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Créez une grille de paramètres vide.
  • Créer des objets pour construire et évaluer un modèle de régression linéaire. Le modèle doit prévoir le champ "durée".
  • Créez un objet de validation croisée. Fournissez des valeurs pour les arguments estimator, estimatorParamMaps et evaluator. Choisissez la validation croisée 5 fois.
  • Entraînez et testez le modèle sur plusieurs plis des données d'entraînement.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create an empty parameter grid
params = ____().____()

# Create objects for building and evaluating a regression model
regression = ____(____)
evaluator = ____(____)

# Create a cross validator
cv = ____(estimator=____, estimatorParamMaps=____, evaluator=____, ____)

# Train and test model on multiple folds of the training data
cv = cv.____(____)

# NOTE: Since cross-valdiation builds multiple models, the fit() method can take a little while to complete.
Modifier et exécuter le code