1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Interpretacja współczynników

Pamiętaj, że kolumna lotniska wylotu, org, ma osiem możliwych wartości (ORD, SFO, JFK, LGA, SMF, SJC, TUS i OGG), które zostały zakodowane metodą one-hot do siedmiu zmiennych zero-jedynkowych w org_dummy.

Wartości km i org_dummy zostały złączone w features – wektorze rzadkim z ośmioma kolumnami. Indeksy kolumn w features są następujące:

  • 0 — km
  • 1 — ORD
  • 2 — SFO
  • 3 — JFK
  • 4 — LGA
  • 5 — SMF
  • 6 — SJC i
  • 7 — TUS.

Zwróć uwagę, że OGG nie pojawia się na tej liście, ponieważ jest poziomem referencyjnym dla kategorii lotniska wylotu.

Instancja LinearRegression jest dostępna w zmiennej regression. W tym ćwiczeniu wykorzystasz atrybuty intercept i coefficients do interpretacji modelu.

Atrybut coefficients to lista, w której pierwszy element wskazuje, jak długość lotu zmienia się wraz z odległością.

Instrukcje

100 XP
  • Oblicz średnią prędkość w km na godzinę. Wynik będzie się różnić od wcześniej uzyskanego, ponieważ model jest teraz bardziej zaawansowany.
  • Jaki jest średni czas postoju na lotnisku OGG?
  • Jaki jest średni czas postoju na lotnisku JFK?
  • Jaki jest średni czas postoju na lotnisku LGA?