Výpočet R-squared

Teď, když jsi vypočítal/a RMSE předpovědí svého modelu, se podíváme na to, jak dobře model vystihuje data – tedy kolik rozptylu dokáže vysvětlit. K tomu slouží $R^2$.

Předpokládejme, že $y$ je skutečná hodnota výstupu, $p$ je předpověď modelu a $res = y - p$ jsou rezidua předpovědí.

Celkový součet čtverců $tss$ („celkový rozptyl") dat je:

$$ tss = \sum{(y - \overline{y})^2} $$

kde $\overline{y}$ je průměrná hodnota $y$.

Reziduální součet čtverců chyb modelu $rss$ je: $$ rss = \sum{res^2} $$

$R^2$ (R-squared), tedy „vysvětlený rozptyl" modelu, se pak vypočítá jako:

$$ 1 - \frac{rss}{tss} $$

Po výpočtu $R^2$ porovnáš svůj výsledek s hodnotou $R^2$, kterou vrátí funkce glance() (docs). Funkce glance() vrací datový rámec s jedním řádkem; u modelu lineární regrese je jedním ze sloupců hodnota $R^2$ modelu na trénovacích datech.

Dataový rámec unemployment je již načtený a obsahuje sloupce predictions a residuals, které jsi vypočítal/a v předchozím cvičení. K dispozici máš také model unemployment_model.

Toto cvičení je součástí kurzu

Supervised Learning in R: Regression

Zobrazit kurz

Pokyny k cvičení

Vypočítej průměr female_unemployment a ulož ho do proměnné fe_mean.
Vypočítej celkový součet čtverců a ulož ho do proměnné tss.
Vypočítej reziduální součet čtverců a ulož ho do proměnné rss.
Vypočítej $R^2$. Jde o dobré přizpůsobení modelu (hodnota $R^2$ blízká 1)?
Pomocí funkce glance() získej $R^2$ z modelu. Shoduje se s hodnotou, kterou jsi vypočítal/a?

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# unemployment is available
summary(unemployment)

# unemployment_model is available
summary(unemployment_model)

# Calculate and print the mean female_unemployment: fe_mean
(fe_mean <- ___)

# Calculate and print the total sum of squares: tss
(tss <- ___((___ - ___)^2))

# Calculate and print residual sum of squares: rss
(rss <- ___)

# Calculate and print the R-squared: rsq
(rsq <- ___)

# Get R-squared from glance and print it
(rsq_glance <- ___(___)$___)

Upravit a spustit kód