Coëfficiënten interpreteren

Onthoud dat vertrekvliegveld, org, acht mogelijke waarden heeft (ORD, SFO, JFK, LGA, SMF, SJC, TUS en OGG) die one-hot zijn gecodeerd naar zeven dummyvariabelen in org_dummy.

De waarden voor km en org_dummy zijn samengevoegd in features, dat acht kolommen heeft met een sparse-representatie. Kolomindexen in features zijn als volgt:

0 — km
1 — ORD
2 — SFO
3 — JFK
4 — LGA
5 — SMF
6 — SJC en
7 — TUS.

Merk op dat OGG niet in deze lijst voorkomt omdat dit het referentieniveau is voor de categorie vertrekvliegveld.

Een instantie van LinearRegression is beschikbaar in regression. In deze oefening gebruik je de attributen intercept en coefficients om het model te interpreteren.

Het attribuut coefficients is een lijst, waarbij het eerste element aangeeft hoe de vluchtduur verandert met de vliegafstand.

Deze oefening maakt deel uit van de cursus

Machine Learning met PySpark

Cursus bekijken

Oefeninstructies

Bepaal de gemiddelde snelheid in km per uur. Dit zal afwijken van de waarde die je eerder kreeg, omdat je model nu geavanceerder is.
Wat is de gemiddelde tijd op de grond bij OGG?
Wat is de gemiddelde tijd op de grond bij JFK?
Wat is de gemiddelde tijd op de grond bij LGA?

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)

# Average minutes on ground at OGG
inter = regression.____
print(inter)

# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)

# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)

Code bewerken en uitvoeren