CommencerCommencer gratuitement

Modèle de durée de vol : Ajout de l'heure de départ

Dans l'exercice précédent, l'heure de départ a été regroupée et convertie en variables nominales. Vous allez maintenant inclure ces variables fictives dans un modèle de régression de la durée des vols.

Les données sont disponibles à l'adresse suivante : flights. Les colonnes km, org_dummy et depart_dummy ont été assemblées en features, où km est l'index 0, org_dummy va de l'index 1 à 7 et depart_dummy de l'index 8 à 14.

Les données ont été divisées en ensembles de formation et de test et un modèle de régression linéaire, regression, a été construit sur les données de formation. Des prédictions ont été faites sur les données d'essai et sont disponibles à l'adresse suivante : predictions.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Trouvez le RMSE pour les prédictions sur les données de test.
  • Trouvez le temps moyen passé au sol pour les vols partant de OGG entre 21:00 et 24:00.
  • Trouvez le temps moyen passé au sol pour les vols partant de OGG entre 03:00 et 06:00.
  • Trouvez le temps moyen passé au sol pour les vols partant de JFK entre 03:00 et 06:00.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Find the RMSE on testing data
from pyspark.ml.____ import ____
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Average minutes on ground at OGG for flights departing between 21:00 and 24:00
avg_eve_ogg = regression.____
print(avg_eve_ogg)

# Average minutes on ground at OGG for flights departing between 03:00 and 06:00
avg_night_ogg = regression.____ + regression.____[9]
print(avg_night_ogg)

# Average minutes on ground at JFK for flights departing between 03:00 and 06:00
avg_night_jfk = regression.____ + regression.____[____] + regression.____[____]
print(avg_night_jfk)
Modifier et exécuter le code