1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

Cvičení

Model doby letu: Více příznaků!

Přidáme do modelu více příznaků. To nutně neznamená, že bude model lepší – některé příznaky ho mohou zlepšit, jiné naopak zhoršit.

Více příznaků vždy zvyšuje složitost modelu a ztěžuje jeho interpretaci.

V dalším modelu použijeme tyto příznaky:

  • km
  • org (letiště odletu, zakódované metodou one-hot encoding, 8 úrovní)
  • depart (čas odletu, rozdělený do 3hodinových intervalů, zakódovaný metodou one-hot encoding, 8 úrovní)
  • dow (den odletu v týdnu, zakódovaný metodou one-hot encoding, 7 úrovní) a
  • mon (měsíc odletu, zakódovaný metodou one-hot encoding, 12 úrovní).

Tyto příznaky jsou sestaveny do sloupce features, který je řídkou reprezentací 32 sloupců (připomeň si, že one-hot encoding vytvoří o jeden sloupec méně, než je počet úrovní).

Data jsou dostupná jako flights a jsou náhodně rozdělena na flights_train a flights_test.

Toto cvičení vychází z malé části datasetu letů.

Pokyny

100 XP
  • Natrénuj model lineární regrese na trénovacích datech.
  • Vygeneruj predikce pro testovací data.
  • Vypočítej RMSE na testovacích datech.
  • Podívej se na koeficienty modelu. Je některý z nich nulový?