CommencerCommencer gratuitement

Validation croisée d'un modèle simple de durée de vol

Vous avez déjà construit quelques modèles pour prédire la durée des vols et les avez évalués à l'aide d'une simple division entre entraînement et test. Cependant, la validation croisée offre un moyen beaucoup plus efficace d'évaluer les performances d'un modèle.

Dans cet exercice, vous allez entraîner un modèle simple pour la durée de vol à l'aide de la validation croisée. Le temps de trajet est généralement étroitement lié à la distance. Par conséquent, l'utilisation de la colonne « km » (Temps de trajet) devrait suffire à établir un modèle satisfaisant.

Les données ont été réparties de manière aléatoire entre flights_train et flights_test.

Les classes suivantes ont déjà été importées : LinearRegression, RegressionEvaluator, ParamGridBuilder et CrossValidator.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Veuillez créer une grille de paramètres vide.
  • Créer des objets pour construire et évaluer un modèle de régression linéaire. Le modèle doit prédire le champ « durée ».
  • Créez un objet cross-validator. Veuillez fournir des valeurs pour les arguments estimator, estimatorParamMaps et evaluator. Veuillez sélectionner la validation croisée à 5 reprises.
  • Entraînez et testez le modèle sur plusieurs plis des données d'entraînement.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create an empty parameter grid
params = ____().____()

# Create objects for building and evaluating a regression model
regression = ____(____)
evaluator = ____(____)

# Create a cross validator
cv = ____(estimator=____, estimatorParamMaps=____, evaluator=____, ____)

# Train and test model on multiple folds of the training data
cv = cv.____(____)

# NOTE: Since cross-valdiation builds multiple models, the fit() method can take a little while to complete.
Modifier et exécuter le code