Modèle de durée de vol : Ajouter l'aéroport de départ
Certains aéroports sont plus fréquentés que d'autres. Certains aéroports sont également plus grands que d'autres. Les vols au départ d'aéroports importants ou très fréquentés sont susceptibles de passer plus de temps à rouler sur le tarmac ou à attendre leur créneau de décollage. Il est donc logique que la durée d'un vol dépende non seulement de la distance parcourue, mais également de l'aéroport de départ.
Vous allez rendre le modèle de régression un peu plus sophistiqué en incluant l'aéroport de départ comme prédicteur.
Ces données ont été divisées en ensembles d'entraînement et de test et sont disponibles aux adresses flights_train
et flights_test
. L'aéroport d'origine, enregistré dans la colonne « org
», a été indexé dans « org_idx
», qui a ensuite été encodé en « one-hot » dans « org_dummy
». Les premiers enregistrements s'affichent dans le terminal.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Ajustez un modèle de régression linéaire aux données d'apprentissage.
- Effectuez des prédictions pour les données de test.
- Calculez l'erreur quadratique moyenne (RMSE) pour les prédictions sur les données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
# Create a regression object and train on training data
regression = ____(____).____(____)
# Create predictions for the testing data
predictions = ____.____(____)
# Calculate the RMSE on testing data
____(____).____(____)