1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

Cvičení

Interpretace koeficientů

Připomeň si, že letiště původu org má osm možných hodnot (ORD, SFO, JFK, LGA, SMF, SJC, TUS a OGG), které byly zakódovány metodou one-hot encoding do sedmi dummy proměnných v org_dummy.

Hodnoty km a org_dummy byly sloučeny do features, které mají osm sloupců v řídké reprezentaci. Indexy sloupců ve features jsou následující:

  • 0 — km
  • 1 — ORD
  • 2 — SFO
  • 3 — JFK
  • 4 — LGA
  • 5 — SMF
  • 6 — SJC a
  • 7 — TUS.

Všimni si, že OGG se v tomto seznamu nevyskytuje, protože jde o referenční úroveň kategorie letiště původu.

Instance LinearRegression je dostupná v proměnné regression. V tomto cvičení budeš používat atributy intercept a coefficients k interpretaci modelu.

Atribut coefficients je seznam, kde první prvek udává, jak se mění délka letu v závislosti na vzdálenosti letu.

Pokyny

100 XP
  • Zjisti průměrnou rychlost v km za hodinu. Výsledek bude odlišný od hodnoty, kterou jsi získal/a dříve, protože tvůj model je teď sofistikovanější.
  • Jaká je průměrná doba stráveného času na zemi na letišti OGG?
  • Jaká je průměrná doba stráveného času na zemi na letišti JFK?
  • Jaká je průměrná doba stráveného času na zemi na letišti LGA?