Wybór domyślnych modeli

MICE tworzy osobny model imputacji dla każdej zmiennej w danych. Rodzaj modelu zależy od typu danej zmiennej. Popularnym sposobem określenia używanych modeli jest ustawienie domyślnego modelu dla każdego z czterech typów zmiennych.

Można to zrobić, przekazując argument defaultMethod do funkcji mice(). Powinien to być wektor o długości 4, zawierający domyślne metody imputacji dla:

Zmiennych ciągłych,
Zmiennych binarnych,
Zmiennych kategorycznych (czynniki nieuporządkowane),
Zmiennych czynnikowych (czynniki uporządkowane).

W tym ćwiczeniu skorzystasz z dokumentacji pakietu mice, aby przejrzeć listę dostępnych metod i wybrać te, które algorytm ma stosować. Czas na selekcję modeli!

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

Instrukcje do ćwiczenia

W dokumentacji RDocumentation zwróconej przez ?mice znajdziesz tabelę zawierającą słowo kluczowe dla każdej metody.
Dokonaj imputacji zbioru danych biopics za pomocą funkcji mice(), używając następujących domyślnych metod (w tej kolejności): drzewa klasyfikacji i regresji, liniowa analiza dyskryminacyjna, dopasowanie predykcyjnej średniej (predictive mean matching), proporcjonalny model szans.
Wyświetl obiekt biopics_multiimp, aby sprawdzić, która metoda została użyta dla której zmiennej.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Impute biopics using the methods specified in the instruction
biopics_multiimp <- ___(biopics, m = 20, 
                         defaultMethod = ___)

# Print biopics_multiimp
print(biopics_multiimp)

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

W tym rozdziale dowiesz się, dlaczego brakujące dane mogą stanowić zagrożenie podczas analizy zbioru danych. Poznasz trzy mechanizmy powstawania braków i nauczysz się je rozpoznawać za pomocą testów statystycznych oraz narzędzi wizualizacyjnych.

Exercise 1: Brakujące dane: co może pójść nie tak Exercise 2: Regresja liniowa z niekompletnymi danymi Exercise 3: Analiza wyników regresji Exercise 4: Porównywanie modeli Exercise 5: Mechanizmy powstawania braków danych Exercise 6: Rozpoznawanie mechanizmów brakujących danych Exercise 7: Test t dla MAR: przygotowanie danych Exercise 8: Test t dla MAR: interpretacja Exercise 9: Wizualizacja wzorców brakujących danych Exercise 10: Wykres agregacji Exercise 11: Wykres słupkowy typu spine Exercise 12: Wykres mozaikowy

Poznaj klasyfikację metod imputacji i naucz się trzech technik opartych na dawcach: imputacji średnią, hot-deck oraz k-najbliższych sąsiadów. Przyjrzysz się, jak te metody działają od środka, a następnie zastosujesz je do rzeczywistego zbioru danych pogodowych ze strefy tropikalnej. Po drodze poznasz też przydatne triki, dzięki którym metody te będą jeszcze skuteczniejsze w twoich problemach.

Exercise 1: Imputacja średnią Exercise 2: Wyczuwanie zagrożeń związanych z imputacją średnią Exercise 3: Imputacja średnią zmiennej temperature Exercise 4: Ocena jakości imputacji za pomocą wykresu marginesowego Exercise 5: Imputacja hot-deck Exercise 6: Prosta imputacja hot-deck Exercise 7: Sztuczki i wskazówki dotyczące hot-deck I: imputacja w obrębie domen Exercise 8: Sztuczki i wskazówki dotyczące hot-deck II: sortowanie według skorelowanych zmiennych Exercise 9: Imputacja metodą k-najbliższych sąsiadów Exercise 10: Wybór liczby sąsiadów Exercise 11: Triki i wskazówki kNN I: ważenie dawców Exercise 12: Triki i porady dla kNN II: sortowanie zmiennych

Czas nauczyć się, jak używać modeli statystycznych i uczenia maszynowego – takich jak regresja liniowa, regresja logistyczna czy lasy losowe – do imputacji brakujących danych. W tym rozdziale przeanalizujesz, jak modele tworzą swoje predykcje, i wykorzystasz tę wiedzę do pobierania imputowanych wartości z rozkładów warunkowych. Jest to ważne, ponieważ sprawia, że imputacje są bardziej zróżnicowane i wiarygodne, a tym samym bliższe prawdziwym danym.

Exercise 1: Podejście do imputacji opartej na modelu Exercise 2: Imputacja metodą regresji liniowej Exercise 3: Inicjalizacja brakujących wartości i iteracja po zmiennych Exercise 4: Wykrywanie zbieżności Exercise 5: Replikowanie zmienności danych Exercise 6: Imputacja regresją logistyczną Exercise 7: Losowanie z rozkładu warunkowego Exercise 8: Imputacja modelowa przy różnych typach zmiennych Exercise 9: Imputacja oparta na drzewach decyzyjnych Exercise 10: Imputacja z użyciem lasów losowych Exercise 11: Błędy imputacji dla poszczególnych zmiennych Exercise 12: Kompromis między szybkością a dokładnością

Imputowane wartości nie są ostateczne. To jedynie szacunki, a każdy szacunek wiąże się z pewną niepewnością. W tym ostatnim rozdziale odkryjesz, jak bootstrapping i metoda równań łańcuchowych z pakietu mice mogą służyć do uwzględniania niepewności imputacji w modelach i analizach, czyniąc je bardziej rzetelnymi i odpornymi.

Exercise 1: Wielokrotna imputacja metodą bootstrappingu Exercise 2: Łączenie imputacji i modelowania w jednej funkcji Exercise 3: Uruchamianie bootstrappingu Exercise 4: Przedziały ufności metodą bootstrapu Exercise 5: Wielokrotna imputacja metodą równań łańcuchowych Exercise 6: Przepływ mice: mice - with - pool Exercise 7: Wybór domyślnych modeli

Bieżące ćwiczenie

Exercise 8: Używanie macierzy predyktorów Exercise 9: Składamy wszystko w całość Exercise 10: Analiza wzorców brakujących danych Exercise 11: Imputacja i analiza wyników Exercise 12: Wnioskowanie na danych z imputacją Exercise 13: Uwagi końcowe