CommencerCommencer gratuitement

Modèle de durée de vol : Ajout de l'aéroport d'origine

Certains aéroports sont plus fréquentés que d'autres. Certains aéroports sont également plus grands que d'autres. Les vols au départ de grands aéroports ou d'aéroports très fréquentés sont susceptibles de passer plus de temps à rouler ou à attendre leur créneau de décollage. Il est donc logique que la durée d'un vol dépende non seulement de la distance parcourue, mais aussi de l'aéroport de départ.

Vous allez rendre le modèle de régression un peu plus sophistiqué en incluant l'aéroport de départ comme prédicteur.

Ces données ont été divisées en ensembles de formation et de test et sont disponibles sous les noms flights_train et flights_test. L'aéroport d'origine, stocké dans la colonne org, a été indexé dans org_idx, qui à son tour a été encodé à une vitesse dans org_dummy. Les premiers enregistrements sont affichés dans le terminal.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Ajustez un modèle de régression linéaire aux données d'apprentissage.
  • Faites des prédictions pour les données d'essai.
  • Calculez le RMSE pour les prédictions sur les données de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data
predictions = ____.____(____)

# Calculate the RMSE on testing data
____(____).____(____)
Modifier et exécuter le code