Modèle de durée de vol : Ajouter l'heure de départ
Dans l'exercice précédent, l'heure de départ a été regroupée et convertie en variables fictives. Vous allez maintenant inclure ces variables fictives dans un modèle de régression pour la durée du vol.
Les données sont disponibles à l'adresse suivante : flights
. Les colonnes « km
», « org_dummy
» et « depart_dummy
» ont été regroupées dans « features
», où « km
» correspond à l'index 0, « org_dummy
» correspond aux index 1 à 7 et « depart_dummy
» correspond aux index 8 à 14.
Les données ont été divisées en ensembles d'apprentissage et de test, et un modèle de régression linéaire, regression
, a été construit à partir des données d'apprentissage. Des prévisions ont été établies à partir des données des essais et sont disponibles à l'adresse predictions
.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Veuillez déterminer la RMSE pour les prédictions sur les données de test.
- Veuillez déterminer le temps moyen passé au sol pour les vols au départ de l'aéroport OGG entre 21 h 00 et 24 h 00.
- Veuillez déterminer le temps moyen passé au sol pour les vols au départ de l'aéroport OGG entre 3 h et 6 h.
- Veuillez déterminer le temps moyen passé au sol pour les vols au départ de JFK entre 3 h et 6 h.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)
# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)
# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)