1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning in R: Regression

Connected

Cvičení

Sestavení modelu random forest pro půjčování kol

V tomto cvičení opět sestavíš model pro předpověď počtu půjčených kol za hodinu v závislosti na počasí, typu dne (svátek, pracovní den nebo víkend) a denní době. Model natrénuješ na datech z července.

K natrénování modelu random forest použiješ balíček ranger. Klíčové argumenty funkce ranger() (docs) jsou:

  • formula
  • data
  • num.trees: počet stromů v lese.
  • respect.unordered.factors: určuje, jak se má zacházet s neuspořádanými faktory. Pro regresi doporučujeme nastavit na "order".
  • seed: protože jde o náhodný algoritmus, nastavíš seed pro zajištění reprodukovatelných výsledků

Protože je vstupních proměnných hodně, pro přehlednost zadáme cílovou proměnnou a vstupy do proměnných outcome a vars a pomocí paste() (docs) sestavíme řetězec reprezentující vzorec modelu.

Dataframe bikesJuly je už načtený. Ukázkový kód obsahuje názvy cílové a vstupních proměnných.

Pokyny

100 XP
  • Doplň prázdná místa a vytvoř vzorec fmla vyjadřující cnt jako funkci vstupů. Vypiš ho.
  • Načti balíček ranger.
  • Pomocí ranger natrénuj model na datech bikesJuly: bike_model_rf.
    • Prvním argumentem funkce ranger() je vzorec fmla.
    • Použij 500 stromů a nastav respect.unordered.factors = "order".
    • Nastav seed na hodnotu seed pro reprodukovatelné výsledky.
    • Vypiš model. Jaká je hodnota R-squared?