Modèle de durée de vol : Ajout de l'heure de départ
Dans l'exercice précédent, l'heure de départ a été regroupée et convertie en variables nominales. Vous allez maintenant inclure ces variables fictives dans un modèle de régression de la durée des vols.
Les données sont disponibles à l'adresse suivante : flights. Les colonnes km, org_dummy et depart_dummy ont été assemblées en features, où km est l'index 0, org_dummy va de l'index 1 à 7 et depart_dummy de l'index 8 à 14.
Les données ont été divisées en ensembles de formation et de test et un modèle de régression linéaire, regression, a été construit sur les données de formation. Des prédictions ont été faites sur les données d'essai et sont disponibles à l'adresse suivante : predictions.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Trouvez le RMSE pour les prédictions sur les données de test.
- Trouvez le temps moyen passé au sol pour les vols partant de OGG entre 21:00 et 24:00.
- Trouvez le temps moyen passé au sol pour les vols partant de OGG entre 03:00 et 06:00.
- Trouvez le temps moyen passé au sol pour les vols partant de JFK entre 03:00 et 06:00.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)