Test t dla MAR: przygotowanie danych

Świetna robota z klasyfikowaniem mechanizmów brakujących danych w poprzednim ćwiczeniu! Spośród wszystkich trzech mechanizmów MAR jest prawdopodobnie najważniejszym do wykrycia – wiele metod imputacji zakłada bowiem, że dane są MAR. To ćwiczenie skupia się właśnie na testowaniu tego mechanizmu.

Będziesz pracować ze znajomym zbiorem danych biopics. Celem jest sprawdzenie, czy liczba brakujących wartości w zmiennej earnings różni się w zależności od płci osoby, której dotyczy biogram. W tym ćwiczeniu przygotujesz dane do testu t. Najpierw utworzysz zmienną zastępczą (ang. dummy variable) wskazującą na brakujące wartości w earnings. Następnie podzielisz dane według płci – filtrując zbiór tak, aby zachować jedną płeć, a potem wyciągając zmienną zastępczą. Przy filtrowaniu warto wyświetlić w konsoli funkcję head() na zbiorze biopics i przyjrzeć się zmiennej opisującej płeć.

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

Instrukcje do ćwiczenia

Dodaj do zbioru biopics nową zmienną missing_earnings, która przyjmuje wartość TRUE, jeśli w earnings brakuje danych, i FALSE w przeciwnym wypadku.
Utwórz wektor wartości missing_earnings dla mężczyzn i przypisz go do zmiennej missing_earnings_males.
Utwórz wektor wartości missing_earnings dla kobiet i przypisz go do zmiennej missing_earnings_females.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Create a dummy variable for missing earnings
biopics <- biopics %>% 
  ___(missing_earnings = ___(___))

# Pull the missing earnings dummy for males
missing_earnings_males <- biopics %>% 
  ___(___) %>% 
  ___(___)

# Pull the missing earnings dummy for females
missing_earnings_females <- biopics %>% 
  ___(___) %>% 
  ___(___)

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

W tym rozdziale dowiesz się, dlaczego brakujące dane mogą stanowić zagrożenie podczas analizy zbioru danych. Poznasz trzy mechanizmy powstawania braków i nauczysz się je rozpoznawać za pomocą testów statystycznych oraz narzędzi wizualizacyjnych.

Exercise 1: Brakujące dane: co może pójść nie tak Exercise 2: Regresja liniowa z niekompletnymi danymi Exercise 3: Analiza wyników regresji Exercise 4: Porównywanie modeli Exercise 5: Mechanizmy powstawania braków danych Exercise 6: Rozpoznawanie mechanizmów brakujących danych Exercise 7: Test t dla MAR: przygotowanie danych

Bieżące ćwiczenie

Exercise 8: Test t dla MAR: interpretacja Exercise 9: Wizualizacja wzorców brakujących danych Exercise 10: Wykres agregacji Exercise 11: Wykres słupkowy typu spine Exercise 12: Wykres mozaikowy

Poznaj klasyfikację metod imputacji i naucz się trzech technik opartych na dawcach: imputacji średnią, hot-deck oraz k-najbliższych sąsiadów. Przyjrzysz się, jak te metody działają od środka, a następnie zastosujesz je do rzeczywistego zbioru danych pogodowych ze strefy tropikalnej. Po drodze poznasz też przydatne triki, dzięki którym metody te będą jeszcze skuteczniejsze w twoich problemach.

Exercise 1: Imputacja średnią Exercise 2: Wyczuwanie zagrożeń związanych z imputacją średnią Exercise 3: Imputacja średnią zmiennej temperature Exercise 4: Ocena jakości imputacji za pomocą wykresu marginesowego Exercise 5: Imputacja hot-deck Exercise 6: Prosta imputacja hot-deck Exercise 7: Sztuczki i wskazówki dotyczące hot-deck I: imputacja w obrębie domen Exercise 8: Sztuczki i wskazówki dotyczące hot-deck II: sortowanie według skorelowanych zmiennych Exercise 9: Imputacja metodą k-najbliższych sąsiadów Exercise 10: Wybór liczby sąsiadów Exercise 11: Triki i wskazówki kNN I: ważenie dawców Exercise 12: Triki i porady dla kNN II: sortowanie zmiennych

Czas nauczyć się, jak używać modeli statystycznych i uczenia maszynowego – takich jak regresja liniowa, regresja logistyczna czy lasy losowe – do imputacji brakujących danych. W tym rozdziale przeanalizujesz, jak modele tworzą swoje predykcje, i wykorzystasz tę wiedzę do pobierania imputowanych wartości z rozkładów warunkowych. Jest to ważne, ponieważ sprawia, że imputacje są bardziej zróżnicowane i wiarygodne, a tym samym bliższe prawdziwym danym.

Exercise 1: Podejście do imputacji opartej na modelu Exercise 2: Imputacja metodą regresji liniowej Exercise 3: Inicjalizacja brakujących wartości i iteracja po zmiennych Exercise 4: Wykrywanie zbieżności Exercise 5: Replikowanie zmienności danych Exercise 6: Imputacja regresją logistyczną Exercise 7: Losowanie z rozkładu warunkowego Exercise 8: Imputacja modelowa przy różnych typach zmiennych Exercise 9: Imputacja oparta na drzewach decyzyjnych Exercise 10: Imputacja z użyciem lasów losowych Exercise 11: Błędy imputacji dla poszczególnych zmiennych Exercise 12: Kompromis między szybkością a dokładnością

Imputowane wartości nie są ostateczne. To jedynie szacunki, a każdy szacunek wiąże się z pewną niepewnością. W tym ostatnim rozdziale odkryjesz, jak bootstrapping i metoda równań łańcuchowych z pakietu mice mogą służyć do uwzględniania niepewności imputacji w modelach i analizach, czyniąc je bardziej rzetelnymi i odpornymi.

Exercise 1: Wielokrotna imputacja metodą bootstrappingu Exercise 2: Łączenie imputacji i modelowania w jednej funkcji Exercise 3: Uruchamianie bootstrappingu Exercise 4: Przedziały ufności metodą bootstrapu Exercise 5: Wielokrotna imputacja metodą równań łańcuchowych Exercise 6: Przepływ mice: mice - with - pool Exercise 7: Wybór domyślnych modeli Exercise 8: Używanie macierzy predyktorów Exercise 9: Składamy wszystko w całość Exercise 10: Analiza wzorców brakujących danych Exercise 11: Imputacja i analiza wyników Exercise 12: Wnioskowanie na danych z imputacją Exercise 13: Uwagi końcowe