Przepływ mice: mice - with - pool

Wielokrotna imputacja metodą równań łańcuchowych, czyli MICE, pozwala oszacować niepewność wynikającą z imputacji. Polega na wielokrotnym imputowaniu zbioru danych metodą opartą na modelu, z losowaniem z warunkowych rozkładów prawdopodobieństwa. Dzięki temu każdy imputowany zbiór danych jest nieco inny. Następnie na każdym z nich przeprowadza się analizę, a wyniki są łączone (pooling), co daje interesujące wielkości statystyczne wraz z przedziałami ufności uwzględniającymi niepewność imputacji.

W tym ćwiczeniu przećwiczysz typowy przepływ pracy z pakietem MICE: mice() – with() – pool(). Przeprowadzisz analizę regresji na zbiorze danych biopics, aby sprawdzić, jakie zajęcie badanego podmiotu (sub_type) wiąże się z najwyższymi przychodami z filmów. Do dzieła!

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

Instrukcje do ćwiczenia

Wczytaj pakiet mice i wykonaj imputację zbioru biopics za pomocą funkcji mice(), stosując 5 imputacji. Wynik przypisz do zmiennej biopics_multiimp.
Dopasuj model regresji liniowej wyjaśniający earnings na podstawie zmiennych year i sub_type do każdego imputowanego zbioru danych. Wynik przypisz do zmiennej lm_multiimp.
Połącz modele regresji zapisane w lm_multiimp metodą poolingu. Wynik przypisz do zmiennej lm_pooled.
Podsumuj lm_pooled w taki sposób, aby uzyskać przedziały ufności na poziomie 95%.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Load mice package
___

# Impute biopics with mice using 5 imputations
biopics_multiimp <- ___(___, m = ___, seed = 3108)

# Fit linear regression to each imputed data set 
lm_multiimp <- ___(___, ___)

# Pool and summarize regression results
lm_pooled <- ___(___)
___(___, conf.int = ___, conf.level = ___)

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

W tym rozdziale dowiesz się, dlaczego brakujące dane mogą stanowić zagrożenie podczas analizy zbioru danych. Poznasz trzy mechanizmy powstawania braków i nauczysz się je rozpoznawać za pomocą testów statystycznych oraz narzędzi wizualizacyjnych.

Exercise 1: Brakujące dane: co może pójść nie tak Exercise 2: Regresja liniowa z niekompletnymi danymi Exercise 3: Analiza wyników regresji Exercise 4: Porównywanie modeli Exercise 5: Mechanizmy powstawania braków danych Exercise 6: Rozpoznawanie mechanizmów brakujących danych Exercise 7: Test t dla MAR: przygotowanie danych Exercise 8: Test t dla MAR: interpretacja Exercise 9: Wizualizacja wzorców brakujących danych Exercise 10: Wykres agregacji Exercise 11: Wykres słupkowy typu spine Exercise 12: Wykres mozaikowy

Poznaj klasyfikację metod imputacji i naucz się trzech technik opartych na dawcach: imputacji średnią, hot-deck oraz k-najbliższych sąsiadów. Przyjrzysz się, jak te metody działają od środka, a następnie zastosujesz je do rzeczywistego zbioru danych pogodowych ze strefy tropikalnej. Po drodze poznasz też przydatne triki, dzięki którym metody te będą jeszcze skuteczniejsze w twoich problemach.

Exercise 1: Imputacja średnią Exercise 2: Wyczuwanie zagrożeń związanych z imputacją średnią Exercise 3: Imputacja średnią zmiennej temperature Exercise 4: Ocena jakości imputacji za pomocą wykresu marginesowego Exercise 5: Imputacja hot-deck Exercise 6: Prosta imputacja hot-deck Exercise 7: Sztuczki i wskazówki dotyczące hot-deck I: imputacja w obrębie domen Exercise 8: Sztuczki i wskazówki dotyczące hot-deck II: sortowanie według skorelowanych zmiennych Exercise 9: Imputacja metodą k-najbliższych sąsiadów Exercise 10: Wybór liczby sąsiadów Exercise 11: Triki i wskazówki kNN I: ważenie dawców Exercise 12: Triki i porady dla kNN II: sortowanie zmiennych

Czas nauczyć się, jak używać modeli statystycznych i uczenia maszynowego – takich jak regresja liniowa, regresja logistyczna czy lasy losowe – do imputacji brakujących danych. W tym rozdziale przeanalizujesz, jak modele tworzą swoje predykcje, i wykorzystasz tę wiedzę do pobierania imputowanych wartości z rozkładów warunkowych. Jest to ważne, ponieważ sprawia, że imputacje są bardziej zróżnicowane i wiarygodne, a tym samym bliższe prawdziwym danym.

Exercise 1: Podejście do imputacji opartej na modelu Exercise 2: Imputacja metodą regresji liniowej Exercise 3: Inicjalizacja brakujących wartości i iteracja po zmiennych Exercise 4: Wykrywanie zbieżności Exercise 5: Replikowanie zmienności danych Exercise 6: Imputacja regresją logistyczną Exercise 7: Losowanie z rozkładu warunkowego Exercise 8: Imputacja modelowa przy różnych typach zmiennych Exercise 9: Imputacja oparta na drzewach decyzyjnych Exercise 10: Imputacja z użyciem lasów losowych Exercise 11: Błędy imputacji dla poszczególnych zmiennych Exercise 12: Kompromis między szybkością a dokładnością

Imputowane wartości nie są ostateczne. To jedynie szacunki, a każdy szacunek wiąże się z pewną niepewnością. W tym ostatnim rozdziale odkryjesz, jak bootstrapping i metoda równań łańcuchowych z pakietu mice mogą służyć do uwzględniania niepewności imputacji w modelach i analizach, czyniąc je bardziej rzetelnymi i odpornymi.

Exercise 1: Wielokrotna imputacja metodą bootstrappingu Exercise 2: Łączenie imputacji i modelowania w jednej funkcji Exercise 3: Uruchamianie bootstrappingu Exercise 4: Przedziały ufności metodą bootstrapu Exercise 5: Wielokrotna imputacja metodą równań łańcuchowych Exercise 6: Przepływ mice: mice - with - pool

Bieżące ćwiczenie

Exercise 7: Wybór domyślnych modeli Exercise 8: Używanie macierzy predyktorów Exercise 9: Składamy wszystko w całość Exercise 10: Analiza wzorców brakujących danych Exercise 11: Imputacja i analiza wyników Exercise 12: Wnioskowanie na danych z imputacją Exercise 13: Uwagi końcowe