Błędy imputacji dla poszczególnych zmiennych

W poprzednim ćwiczeniu wyodrębniono szacunkowe błędy imputacji z wyników funkcji missForest. Otrzymano dwie wartości:

znormalizowany pierwiastek błędu średniokwadratowego (NRMSE) dla wszystkich zmiennych ciągłych;
odsetek błędnie sklasyfikowanych obserwacji (PFC) dla wszystkich zmiennych kategorycznych.

Może się jednak zdarzyć, że model imputacji świetnie radzi sobie z jedną zmienną ciągłą, a słabo z inną! Aby wykryć takie przypadki, wystarczy wskazać funkcji missForest, że ma obliczać błędy osobno dla każdej zmiennej. Służy do tego ustawienie argumentu variablewise na TRUE.

Zbiór danych biopics i pakiet missForest zostały już wczytane – przyjrzyjmy się bliżej błędom imputacji!

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Impute biopics data with missForest computing per-variable errors
imp_res <- ___(___, ___ = ___)

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

W tym rozdziale dowiesz się, dlaczego brakujące dane mogą stanowić zagrożenie podczas analizy zbioru danych. Poznasz trzy mechanizmy powstawania braków i nauczysz się je rozpoznawać za pomocą testów statystycznych oraz narzędzi wizualizacyjnych.

Exercise 1: Brakujące dane: co może pójść nie tak Exercise 2: Regresja liniowa z niekompletnymi danymi Exercise 3: Analiza wyników regresji Exercise 4: Porównywanie modeli Exercise 5: Mechanizmy powstawania braków danych Exercise 6: Rozpoznawanie mechanizmów brakujących danych Exercise 7: Test t dla MAR: przygotowanie danych Exercise 8: Test t dla MAR: interpretacja Exercise 9: Wizualizacja wzorców brakujących danych Exercise 10: Wykres agregacji Exercise 11: Wykres słupkowy typu spine Exercise 12: Wykres mozaikowy

Poznaj klasyfikację metod imputacji i naucz się trzech technik opartych na dawcach: imputacji średnią, hot-deck oraz k-najbliższych sąsiadów. Przyjrzysz się, jak te metody działają od środka, a następnie zastosujesz je do rzeczywistego zbioru danych pogodowych ze strefy tropikalnej. Po drodze poznasz też przydatne triki, dzięki którym metody te będą jeszcze skuteczniejsze w twoich problemach.

Exercise 1: Imputacja średnią Exercise 2: Wyczuwanie zagrożeń związanych z imputacją średnią Exercise 3: Imputacja średnią zmiennej temperature Exercise 4: Ocena jakości imputacji za pomocą wykresu marginesowego Exercise 5: Imputacja hot-deck Exercise 6: Prosta imputacja hot-deck Exercise 7: Sztuczki i wskazówki dotyczące hot-deck I: imputacja w obrębie domen Exercise 8: Sztuczki i wskazówki dotyczące hot-deck II: sortowanie według skorelowanych zmiennych Exercise 9: Imputacja metodą k-najbliższych sąsiadów Exercise 10: Wybór liczby sąsiadów Exercise 11: Triki i wskazówki kNN I: ważenie dawców Exercise 12: Triki i porady dla kNN II: sortowanie zmiennych

Czas nauczyć się, jak używać modeli statystycznych i uczenia maszynowego – takich jak regresja liniowa, regresja logistyczna czy lasy losowe – do imputacji brakujących danych. W tym rozdziale przeanalizujesz, jak modele tworzą swoje predykcje, i wykorzystasz tę wiedzę do pobierania imputowanych wartości z rozkładów warunkowych. Jest to ważne, ponieważ sprawia, że imputacje są bardziej zróżnicowane i wiarygodne, a tym samym bliższe prawdziwym danym.

Exercise 1: Podejście do imputacji opartej na modelu Exercise 2: Imputacja metodą regresji liniowej Exercise 3: Inicjalizacja brakujących wartości i iteracja po zmiennych Exercise 4: Wykrywanie zbieżności Exercise 5: Replikowanie zmienności danych Exercise 6: Imputacja regresją logistyczną Exercise 7: Losowanie z rozkładu warunkowego Exercise 8: Imputacja modelowa przy różnych typach zmiennych Exercise 9: Imputacja oparta na drzewach decyzyjnych Exercise 10: Imputacja z użyciem lasów losowych Exercise 11: Błędy imputacji dla poszczególnych zmiennych

Bieżące ćwiczenie

Exercise 12: Kompromis między szybkością a dokładnością

Imputowane wartości nie są ostateczne. To jedynie szacunki, a każdy szacunek wiąże się z pewną niepewnością. W tym ostatnim rozdziale odkryjesz, jak bootstrapping i metoda równań łańcuchowych z pakietu mice mogą służyć do uwzględniania niepewności imputacji w modelach i analizach, czyniąc je bardziej rzetelnymi i odpornymi.

Exercise 1: Wielokrotna imputacja metodą bootstrappingu Exercise 2: Łączenie imputacji i modelowania w jednej funkcji Exercise 3: Uruchamianie bootstrappingu Exercise 4: Przedziały ufności metodą bootstrapu Exercise 5: Wielokrotna imputacja metodą równań łańcuchowych Exercise 6: Przepływ mice: mice - with - pool Exercise 7: Wybór domyślnych modeli Exercise 8: Używanie macierzy predyktorów Exercise 9: Składamy wszystko w całość Exercise 10: Analiza wzorców brakujących danych Exercise 11: Imputacja i analiza wyników Exercise 12: Wnioskowanie na danych z imputacją Exercise 13: Uwagi końcowe