Interprétation des coefficients
Rappelez-vous que l'aéroport d'origine, org, a huit valeurs possibles (ORD, SFO, JFK, LGA, SMF, SJC, TUS et OGG) qui ont été codées à une case pour sept variables nominales dans org_dummy.
Les valeurs de km et org_dummy ont été rassemblées dans features, qui comporte huit colonnes avec une représentation éparse. Les indices des colonnes dans features sont les suivants :
- 0 —
km - 1 —
ORD - 2 —
SFO - 3 —
JFK - 4 —
LGA - 5 —
SMF - 6 -
SJCet - 7 —
TUS.
Notez que OGG n'apparaît pas dans cette liste car il s'agit du niveau de référence pour la catégorie des aéroports d'origine.
Une instance de LinearRegression est disponible dans regression. Dans cet exercice, vous utiliserez les attributs intercept et coefficients pour interpréter le modèle.
L'attribut coefficients est une liste dont le premier élément indique comment la durée du vol évolue en fonction de la distance.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Trouvez la vitesse moyenne en km par heure. Cette valeur sera différente de celle que vous avez obtenue précédemment, car votre modèle est désormais plus sophistiqué.
- Quel est le temps moyen passé au sol à l'aéroport international de Göteborg ?
- Quel est le temps moyen passé au sol à JFK ?
- Quel est le temps moyen passé au sol à LGA ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)
# Average minutes on ground at OGG
inter = regression.____
print(inter)
# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)
# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)