1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning in R: Regression

Connected

Cvičení

Natrénuj model pro predikci počtu půjčení kol

V tomto cvičení sestavíš model, který bude předpovídat počet půjčených kol za hodinu na základě počasí, typu dne (svátek, pracovní den nebo víkend) a denní doby. Model natrénuješ na datech za měsíc červenec.

Dataframe obsahuje tyto sloupce:

  • cnt: počet půjčených kol v dané hodině (výstupní proměnná)
  • hr: hodina dne (0–23, jako faktor)
  • holiday: TRUE/FALSE
  • workingday: TRUE, pokud nejde o svátek ani víkend, jinak FALSE
  • weathersit: kategorická proměnná – „Clear to partly cloudy"/„Light Precipitation"/„Misty"
  • temp: normalizovaná teplota v Celsiích
  • atemp: normalizovaná „pocitová" teplota v Celsiích
  • hum: normalizovaná vlhkost
  • windspeed: normalizovaná rychlost větru
  • instant: časový index – počet hodin od začátku datasetu (není to proměnná modelu)
  • mnth a yr: indexy měsíce a roku (nejsou to proměnné modelu)

Pamatuj, že při použití glm() (docs) pro model počtů musíš zadat family = poisson nebo family = quasipoisson.

Protože vstupních proměnných je hodně, uložíme si pro přehlednost název výstupní proměnné a názvy vstupních proměnných do proměnných a pomocí paste() (docs) sestavíme řetězec reprezentující vzorec modelu.

Dataframe bikesJuly je k dispozici. Názvy výstupní a vstupních proměnných jsou také načteny jako proměnné outcome a vars.

Pokyny

100 XP
  • Doplň chybějící části a vytvoř vzorec fmla, který vyjadřuje cnt jako funkci vstupních proměnných. Vypiš ho.
  • Vypočítej průměr (mean()) a rozptyl (var()) proměnné bikesJuly$cnt.
    • Měl/a bys použít poisson, nebo quasipoisson regresi?
  • Pomocí glm() natrénuj model na datech bikesJuly: bike_model.
  • Pomocí glance() prozkoumej statistiky shody modelu. Výstup glance() ulož do proměnné perf.
  • Vypočítej pseudo-R-squared modelu.