1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning in R: Regression

Connected

Cvičení

Natrénuj model pravděpodobnosti přežití vrabce

V tomto cvičení odhadneš pravděpodobnost, že vrabec přežije silnou zimní bouři, a to na základě jeho fyzických charakteristik. Dataset sparrow je již načtený. Cílová proměnná je status ("Survived", "Perished"). Budeme pracovat s těmito proměnnými:

  • total_length: délka ptáka od špičky zobáku po špičku ocasu (mm)
  • weight: hmotnost v gramech
  • humerus: délka kosti pažní (kost spojující křídlo s tělem) (palce)

Pamatuj, že při vytváření modelu logistické regrese pomocí glm() (dokumentace) je nutné explicitně nastavit family = binomial:

glm(formula, data = data, family = binomial)

Použiješ summary() a broom::glance(), abys prozkoumal/a model logistické regrese z různých úhlů. Jednou z diagnostických metrik je obdoba \(R^2\), tzv. pseudo-\(R^2\).

$$ pseudoR^2 = 1 - \frac{deviance}{null.deviance} $$

Deviance je obdoba rozptylu: měří variabilitu v kategoriálních datech. Pseudo-\(R^2\) pak odpovídá \(R^2\) u standardní regrese: \(R^2\) vyjadřuje podíl vysvětleného rozptylu modelu. Pseudo-\(R^2\) analogicky vyjadřuje podíl vysvětlené deviance.

Pokyny

100 XP
  • Jak bylo ukázáno ve videu, budeme predikovat výstupy TRUE a FALSE. Vytvoř nový sloupec survived v datovém rámci sparrow, který bude mít hodnotu TRUE, pokud platí status == "Survived".
  • Vytvoř vzorec fmla, který vyjadřuje survived jako funkci proměnných, jež nás zajímají. Vypiš ho.
  • Natrénuj model logistické regrese pro predikci pravděpodobnosti přežití vrabce. Ulož model do proměnné sparrow_model.
  • Zavolej summary(), abys zobrazil/a koeficienty modelu, deviance a nulovou devianci.
  • Zavolej glance() na model, abys získal/a deviance a další diagnostické hodnoty ve formě datového rámce. Výstup z glance() ulož do proměnné perf.
  • Vypočítej pseudo-\(R^2\).