1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Przepływ mice: mice - with - pool

Wielokrotna imputacja metodą równań łańcuchowych, czyli MICE, pozwala oszacować niepewność wynikającą z imputacji. Polega na wielokrotnym imputowaniu zbioru danych metodą opartą na modelu, z losowaniem z warunkowych rozkładów prawdopodobieństwa. Dzięki temu każdy imputowany zbiór danych jest nieco inny. Następnie na każdym z nich przeprowadza się analizę, a wyniki są łączone (pooling), co daje interesujące wielkości statystyczne wraz z przedziałami ufności uwzględniającymi niepewność imputacji.

W tym ćwiczeniu przećwiczysz typowy przepływ pracy z pakietem MICE: mice() – with() – pool(). Przeprowadzisz analizę regresji na zbiorze danych biopics, aby sprawdzić, jakie zajęcie badanego podmiotu (sub_type) wiąże się z najwyższymi przychodami z filmów. Do dzieła!

Instrukcje

100 XP
  • Wczytaj pakiet mice i wykonaj imputację zbioru biopics za pomocą funkcji mice(), stosując 5 imputacji. Wynik przypisz do zmiennej biopics_multiimp.
  • Dopasuj model regresji liniowej wyjaśniający earnings na podstawie zmiennych year i sub_type do każdego imputowanego zbioru danych. Wynik przypisz do zmiennej lm_multiimp.
  • Połącz modele regresji zapisane w lm_multiimp metodą poolingu. Wynik przypisz do zmiennej lm_pooled.
  • Podsumuj lm_pooled w taki sposób, aby uzyskać przedziały ufności na poziomie 95%.