1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning v R: Klasifikace

Connected

cvičení

Sestavení jednoduchých modelů logistické regrese

Dataset donors obsahuje 93 462 záznamů o lidech, kteří obdrželi fundraisingovou výzvu k darování pro válečné veterány s paralýzou. Sloupec donated má hodnotu 1, pokud dotyčný na výzvu reagoval darem, a 0 v opačném případě. Tento binární výsledek bude závislou proměnnou modelu logistické regrese.

Zbývající sloupce zachycují vlastnosti potenciálních dárců, které mohou ovlivnit jejich ochotu přispět. Jde o nezávislé proměnné modelu.

Při sestavování regresního modelu je užitečné si nejdříve promyslet, které nezávislé proměnné mohou mít prediktivní hodnotu pro závislou proměnnou. Sloupec bad_address, který má hodnotu 1 pro neplatnou poštovní adresu a 0 jinak, pravděpodobně snižuje šanci na dar. Podobně lze předpokládat, že náboženský zájem (interest_religion) a zájem o záležitosti veteránů (interest_veterans) budou spojeny s vyšší ochotou k charitativním darům.

V tomto cvičení tyto tři faktory použiješ k vytvoření jednoduchého modelu dárcovského chování. Dataset donors máš k dispozici.

Pokyny

100 XP
  • Prozkoumej dataset donors pomocí funkce str().
  • Spočítej počet výskytů každé hodnoty proměnné donated pomocí funkce table().
  • Natrénuj model logistické regrese pomocí vzorcového rozhraní se třemi nezávislými proměnnými popsanými výše.
    • Zavolej glm() s vzorcem jako prvním argumentem a datovým rámcem jako argumentem data.
    • Výsledek ulož do proměnné donation_model.
  • Shrň objekt modelu pomocí funkce summary().