1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Škálovatelné zpracování dat v R

Connected

cvičení

Hledáme předvídatelnost chybějících hodnot

Pokud data chybí zcela náhodně, nemělo by být možné předvídat, kdy nějaká hodnota chybí, na základě zbytku dat. Pokud to předvídat lze, data tedy nejsou chybějící zcela náhodně. Použijeme proto funkci glm() k nafitování logistické regrese a budeme hledat vzorec v chybějících hodnotách proměnné mort na základě dostupnosti. Pokud žádnou strukturu v chybějících datech nenajdeš – tedy proměnné sklonu nebudou signifikantní – neznamená to, že jsi dokázal/a, že data chybí náhodně, ale je to přinejmenším věrohodné.

Pokyny

100 XP
  • Vytvoř proměnnou indikující, zda hodnota sloupce "borrower_race" chybí (rovná se 9) v hypotečních datech.
  • Vytvoř faktorovou proměnnou ze sloupce "affordability".
  • Regreduj affordability_factor na borrower_race_ind a zavolej na výsledek funkci summary().