1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning for Marketing Analytics in R

Connected

cvičení

Jak se vyhnout multikolinearitě

Vrátíme se k našemu prodejnímu datasetu salesData, který je už načtený v pracovním prostředí. Navíc je načtený i balíček rms.

Odhadneme vícenásobnou lineární regresi! Přitom chceme využít všechny proměnné, které jsou v datasetu k dispozici.

Pokyny

100 XP
  • Sestav úplný model s názvem salesModel1 využívající všechny proměnné kromě id, aby vysvětloval prodeje v tomto měsíci. K tomu doplň správné názvy proměnných do následující vzorové syntaxe: response ~ . - excluded_variable. Čte se to jako "response modelované pomocí všech proměnných kromě excluded_variable."
  • Odhadni faktory změny rozptylu pomocí funkce vif() z balíčku rms.
  • Kromě vyloučení proměnné id odstraň také proměnné preferredBrand a nBrands, aby se předešlo multikolinearitě. Každou z nich vylučuješ přidáním - před její název. Model ulož do objektu salesModel2.
  • Znovu odhadni faktory změny rozptylu pro tento model. Jsou teď výsledky přijatelné?