1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Práce s chybějícími daty v R

Connected

cvičení

Imputace dat pomocí balíčku simputation

V R existuje mnoho balíčků pro imputaci. My se zaměříme na balíček simputation, který nabízí jednoduché a přitom výkonné rozhraní pro provádění imputací.

Sestrojit dobrý imputační model je velmi důležité, ale zároveň je to komplexní téma – budování kvalitního imputačního modelu je stejně náročné jako budování dobrého statistického modelu. V tomto kurzu se proto soustředíme na to, jak imputace vyhodnocovat.

Nejprve se podíváme na funkci impute_lm(), která imputuje hodnoty na základě zadaného lineárního modelu.

V tomto cvičení použiješ dříve probrané techniky hodnocení na datech s impute_lm() a v dalších lekcích na tuto metodu imputace navážeš.

Pokyny

100 XP

Pracuj s datasetem oceanbuoys:

  • Imputuj humidity pomocí proměnných wind_ew a wind_ns a sleduj chybějící hodnoty pomocí add_label_shadow().
  • Vykresli imputované hodnoty pro air_temp_c a humidity – umísti je na osu x, respektive osu y, a obarvi je podle any_missing().