1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Sztuczki i wskazówki dotyczące hot-deck II: sortowanie według skorelowanych zmiennych

Kolejnym trikiem, który może poprawić wyniki imputacji metodą hot-deck, jest posortowanie danych według zmiennych skorelowanych z tą, którą chcemy uzupełnić.

Na przykład na wszystkich wykresach marginalnych, które ostatnio tworzyłeś, widać wyraźnie, że temperatura powietrza jest silnie skorelowana z temperaturą powierzchni morza – co ma intuicyjny sens. Możesz wykorzystać tę wiedzę, aby ulepszyć imputację metodą hot-deck. Jeśli najpierw posortujemy dane według sea_surface_temp, każda uzupełniona wartość air_temp będzie pochodzić od dawcy o podobnej wartości sea_surface_temp. Sprawdźmy, jak to działa w praktyce!

Instrukcje

100 XP
  • Wykonaj imputację metodą hot-deck dla brakujących wartości air_temp w zbiorze danych tao, sortując dane według sea_surface_temp, i przypisz wynik do zmiennej tao_imp.
  • Stwórz wykres marginalny dla air_temp i sea_surface_temp.