Triki i porady dla kNN II: sortowanie zmiennych

Algorytm k-Nearest Neighbors przetwarza kolejno zmienne w zbiorze danych, obliczając odległości między obserwacjami na podstawie pozostałych zmiennych – w tym tych, które zostały już uzupełnione w poprzednich krokach. Oznacza to, że jeśli zmienne umieszczone wcześniej w zbiorze mają dużo brakujących wartości, kolejne obliczenia odległości opierają się w dużej mierze na wartościach imputowanych, co wprowadza szum do tego procesu.

Dlatego dobrą praktyką jest posortowanie zmiennych rosnąco według liczby brakujących wartości przed wykonaniem imputacji kNN. Dzięki temu każde obliczenie odległości bazuje na jak największej ilości rzeczywistych danych i jak najmniejszej ilości wartości imputowanych.

Wypróbuj to na zbiorze danych tao!

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

Instrukcje do ćwiczenia

W pierwszej części potoku oblicz liczbę brakujących wartości w każdej kolumnie zbioru tao.
Następnie posortuj zmienne rosnąco według liczby brakujących wartości, wyodrębnij ich nazwy i przypisz wynik do vars_by_NAs.
Użyj funkcji select(), aby zmienić kolejność zmiennych w tao zgodnie z kolejnością zapisaną w vars_by_NAs.
Wykonaj imputację metodą k-Nearest Neighbors na przestawioych danych i przypisz wynik do tao_imp.

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Get tao variable names sorted by number of NAs
vars_by_NAs <- tao %>%
  ___ %>%
  colSums() %>%
  sort(decreasing = ___) %>% 
  names()

# Sort tao variables and feed it to kNN imputation
tao_imp <- tao %>% 
  select(___) %>% 
  ___()

tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	marginplot(delimiter = "imp")

Edytuj i uruchom kod

To ćwiczenie jest częścią kursu

Obsługa brakujących danych z imputacją w R

SkillTag.level.advancedSkillTag.label

4.8+

Rozpocznij kurs za darmo

W tym rozdziale dowiesz się, dlaczego brakujące dane mogą stanowić zagrożenie podczas analizy zbioru danych. Poznasz trzy mechanizmy powstawania braków i nauczysz się je rozpoznawać za pomocą testów statystycznych oraz narzędzi wizualizacyjnych.

Exercise 1: Brakujące dane: co może pójść nie tak Exercise 2: Regresja liniowa z niekompletnymi danymi Exercise 3: Analiza wyników regresji Exercise 4: Porównywanie modeli Exercise 5: Mechanizmy powstawania braków danych Exercise 6: Rozpoznawanie mechanizmów brakujących danych Exercise 7: Test t dla MAR: przygotowanie danych Exercise 8: Test t dla MAR: interpretacja Exercise 9: Wizualizacja wzorców brakujących danych Exercise 10: Wykres agregacji Exercise 11: Wykres słupkowy typu spine Exercise 12: Wykres mozaikowy

Poznaj klasyfikację metod imputacji i naucz się trzech technik opartych na dawcach: imputacji średnią, hot-deck oraz k-najbliższych sąsiadów. Przyjrzysz się, jak te metody działają od środka, a następnie zastosujesz je do rzeczywistego zbioru danych pogodowych ze strefy tropikalnej. Po drodze poznasz też przydatne triki, dzięki którym metody te będą jeszcze skuteczniejsze w twoich problemach.

Exercise 1: Imputacja średnią Exercise 2: Wyczuwanie zagrożeń związanych z imputacją średnią Exercise 3: Imputacja średnią zmiennej temperature Exercise 4: Ocena jakości imputacji za pomocą wykresu marginesowego Exercise 5: Imputacja hot-deck Exercise 6: Prosta imputacja hot-deck Exercise 7: Sztuczki i wskazówki dotyczące hot-deck I: imputacja w obrębie domen Exercise 8: Sztuczki i wskazówki dotyczące hot-deck II: sortowanie według skorelowanych zmiennych Exercise 9: Imputacja metodą k-najbliższych sąsiadów Exercise 10: Wybór liczby sąsiadów Exercise 11: Triki i wskazówki kNN I: ważenie dawców Exercise 12: Triki i porady dla kNN II: sortowanie zmiennych

Bieżące ćwiczenie

Czas nauczyć się, jak używać modeli statystycznych i uczenia maszynowego – takich jak regresja liniowa, regresja logistyczna czy lasy losowe – do imputacji brakujących danych. W tym rozdziale przeanalizujesz, jak modele tworzą swoje predykcje, i wykorzystasz tę wiedzę do pobierania imputowanych wartości z rozkładów warunkowych. Jest to ważne, ponieważ sprawia, że imputacje są bardziej zróżnicowane i wiarygodne, a tym samym bliższe prawdziwym danym.

Exercise 1: Podejście do imputacji opartej na modelu Exercise 2: Imputacja metodą regresji liniowej Exercise 3: Inicjalizacja brakujących wartości i iteracja po zmiennych Exercise 4: Wykrywanie zbieżności Exercise 5: Replikowanie zmienności danych Exercise 6: Imputacja regresją logistyczną Exercise 7: Losowanie z rozkładu warunkowego Exercise 8: Imputacja modelowa przy różnych typach zmiennych Exercise 9: Imputacja oparta na drzewach decyzyjnych Exercise 10: Imputacja z użyciem lasów losowych Exercise 11: Błędy imputacji dla poszczególnych zmiennych Exercise 12: Kompromis między szybkością a dokładnością

Imputowane wartości nie są ostateczne. To jedynie szacunki, a każdy szacunek wiąże się z pewną niepewnością. W tym ostatnim rozdziale odkryjesz, jak bootstrapping i metoda równań łańcuchowych z pakietu mice mogą służyć do uwzględniania niepewności imputacji w modelach i analizach, czyniąc je bardziej rzetelnymi i odpornymi.

Exercise 1: Wielokrotna imputacja metodą bootstrappingu Exercise 2: Łączenie imputacji i modelowania w jednej funkcji Exercise 3: Uruchamianie bootstrappingu Exercise 4: Przedziały ufności metodą bootstrapu Exercise 5: Wielokrotna imputacja metodą równań łańcuchowych Exercise 6: Przepływ mice: mice - with - pool Exercise 7: Wybór domyślnych modeli Exercise 8: Używanie macierzy predyktorów Exercise 9: Składamy wszystko w całość Exercise 10: Analiza wzorców brakujących danych Exercise 11: Imputacja i analiza wyników Exercise 12: Wnioskowanie na danych z imputacją Exercise 13: Uwagi końcowe