Interprétation des coefficients
Veuillez noter que l'aéroport d'origine, org
, peut prendre huit valeurs différentes (ORD, SFO, JFK, LGA, SMF, SJC, TUS et OGG), qui ont été codées de manière unique en sept variables fictives dans org_dummy
.
Les valeurs pour km
et org_dummy
ont été regroupées dans features
, qui comporte huit colonnes avec une représentation clairsemée. Les indices des colonnes dans l'features
, sont les suivants :
- 0 —
km
- 1 —
ORD
- 2 —
SFO
- 3 —
JFK
- 4 —
LGA
- 5 —
SMF
- 6 —
SJC
et - 7 —
TUS
.
Veuillez noter que l'aéroport de Paris-Orly ( OGG
) n'apparaît pas dans cette liste, car il s'agit du niveau de référence pour la catégorie des aéroports d'origine.
Un exemple d'LinearRegression
est disponible à l'adresse regression
. Dans cet exercice, vous utiliserez les attributs « intercept
» et « coefficients
» pour interpréter le modèle.
L'attribut « coefficients
» est une liste dont le premier élément indique comment la durée du vol varie en fonction de la distance parcourue.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Veuillez calculer la vitesse moyenne en kilomètres par heure. Cette valeur sera différente de celle que vous avez obtenue précédemment, car votre modèle est désormais plus sophistiqué.
- Quelle est la durée moyenne d'une escale à OGG ?
- Quelle est la durée moyenne d'attente au sol à l'aéroport JFK ?
- Quelle est la durée moyenne d'attente au sol à LGA ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)
# Average minutes on ground at OGG
inter = regression.____
print(inter)
# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)
# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)