1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning v R: Klasifikace

Connected

cvičení

Práce s chybějícími daty

Některým potenciálním dárcům chybí data o věku (age). R bohužel při sestavování regresního modelu vyřadí všechny záznamy s hodnotami NA.

Jedním ze způsobů, jak to obejít, je nahradit chybějící hodnoty odhadnutou hodnotou – tento postup se nazývá imputace. Poté můžeš také vytvořit indikátor chybějících dat, který zohlední možnost, že záznamy s chybějícími hodnotami se nějakým způsobem liší od těch bez nich.

Dataový rámec donors je načtený ve tvém pracovním prostoru.

Pokyny

100 XP
  • Použij summary() na donors$age a zjisti průměrný věk uchazečů s dostupnými daty.
  • Pomocí ifelse() a testu is.na(donors$age) imputuj průměrný věk (zaokrouhlený na 2 desetinná místa) pro záznamy s chybějícím age. Nezapomeň také ignorovat hodnoty NA.
  • Vytvoř binární dummy proměnnou s názvem missing_age, která bude indikovat přítomnost chybějících dat – použij další volání ifelse() se stejným testem.