1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning in R: Regression

Connected

Cvičení

Výpočet R-squared

Teď, když jsi vypočítal/a RMSE předpovědí svého modelu, se podíváme na to, jak dobře model vystihuje data – tedy kolik rozptylu dokáže vysvětlit. K tomu slouží \(R^2\).

Předpokládejme, že \(y\) je skutečná hodnota výstupu, \(p\) je předpověď modelu a \(res = y - p\) jsou rezidua předpovědí.

Celkový součet čtverců \(tss\) („celkový rozptyl") dat je:

$$ tss = \sum{(y - \overline{y})^2} $$

kde \(\overline{y}\) je průměrná hodnota \(y\).

Reziduální součet čtverců chyb modelu \(rss\) je: $$ rss = \sum{res^2} $$

\(R^2\) (R-squared), tedy „vysvětlený rozptyl" modelu, se pak vypočítá jako:

$$ 1 - \frac{rss}{tss} $$

Po výpočtu \(R^2\) porovnáš svůj výsledek s hodnotou \(R^2\), kterou vrátí funkce glance() (docs). Funkce glance() vrací datový rámec s jedním řádkem; u modelu lineární regrese je jedním ze sloupců hodnota \(R^2\) modelu na trénovacích datech.

Dataový rámec unemployment je již načtený a obsahuje sloupce predictions a residuals, které jsi vypočítal/a v předchozím cvičení. K dispozici máš také model unemployment_model.

Pokyny

100 XP
  • Vypočítej průměr female_unemployment a ulož ho do proměnné fe_mean.
  • Vypočítej celkový součet čtverců a ulož ho do proměnné tss.
  • Vypočítej reziduální součet čtverců a ulož ho do proměnné rss.
  • Vypočítej \(R^2\). Jde o dobré přizpůsobení modelu (hodnota \(R^2\) blízká 1)?
  • Pomocí funkce glance() získej \(R^2\) z modelu. Shoduje se s hodnotou, kterou jsi vypočítal/a?