1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Triki i porady dla kNN II: sortowanie zmiennych

Algorytm k-Nearest Neighbors przetwarza kolejno zmienne w zbiorze danych, obliczając odległości między obserwacjami na podstawie pozostałych zmiennych – w tym tych, które zostały już uzupełnione w poprzednich krokach. Oznacza to, że jeśli zmienne umieszczone wcześniej w zbiorze mają dużo brakujących wartości, kolejne obliczenia odległości opierają się w dużej mierze na wartościach imputowanych, co wprowadza szum do tego procesu.

Dlatego dobrą praktyką jest posortowanie zmiennych rosnąco według liczby brakujących wartości przed wykonaniem imputacji kNN. Dzięki temu każde obliczenie odległości bazuje na jak największej ilości rzeczywistych danych i jak najmniejszej ilości wartości imputowanych.

Wypróbuj to na zbiorze danych tao!

Instrukcje

100 XP
  • W pierwszej części potoku oblicz liczbę brakujących wartości w każdej kolumnie zbioru tao.
  • Następnie posortuj zmienne rosnąco według liczby brakujących wartości, wyodrębnij ich nazwy i przypisz wynik do vars_by_NAs.
  • Użyj funkcji select(), aby zmienić kolejność zmiennych w tao zgodnie z kolejnością zapisaną w vars_by_NAs.
  • Wykonaj imputację metodą k-Nearest Neighbors na przestawioych danych i przypisz wynik do tao_imp.