1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning in R: Regression

Connected

Cvičení

Modelování interakce (2)

V tomto cvičení porovnáš výkon modelu s interakcí, který jsi sestavil/a v předchozím cvičení, s výkonem modelu obsahujícího pouze hlavní efekty. Protože je tato datová sada malá, použijeme křížovou validaci k simulaci předpovědí na datech mimo trénovací sadu.

Začneme používat balíček dplyr pro výpočty.

  • mutate() (docs) přidá do tbl (typ datového rámce) nové sloupce
  • group_by() (docs) určuje, jak jsou řádky v tbl seskupeny
  • summarize() (docs) vypočítá souhrnné statistiky sloupce

Použ také funkci pivot_longer() z balíčku tidyr (docs), která sloučí více sloupců do dvojic klíč–hodnota. Datový rámec alcohol a vzorce fmla_add a fmla_interaction jsou již načteny.

Pokyny

100 XP
  • Pomocí kWayCrossValidation() (docs) vytvoř plán rozdělení pro 3násobnou křížovou validaci.
    • První argument je počet řádků k rozdělení.
    • Druhý argument je počet foldů pro křížovou validaci.
    • 3. a 4. argument funkce můžeš nastavit na NULL.
  • Prohlédni si a spusť ukázkový kód, který získá předpovědi z 3násobné křížové validace pro model bez interakcí, a přiřaď je do sloupce pred_add.
  • Získej předpovědi z 3násobné křížové validace pro model s interakcemi. Předpovědi přiřaď do sloupce pred_interaction.
    • Postup ti ukazuje ukázkový kód.
    • Použij stejný splitPlan, který jsi už vytvořil/a.
  • Doplň prázdná místa, aby kód:
    • pomocí pivot_longer sloučil předpovědi do jediného sloupce pred,
    • přidal sloupec reziduálů (skutečný výsledek – předpovězený výsledek),
    • vypočítal RMSE předpovědí křížové validace pro každý typ modelu.
  • Porovnej hodnoty RMSE. Na základě výsledků – který model bys zvolil/a?