1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Sztuczki i wskazówki dotyczące hot-deck I: imputacja w obrębie domen

Jedną ze sztuczek, która może pomóc, gdy imputacja hot-deck zaburza zależności między zmiennymi, jest imputacja w obrębie domen. Oznacza to, że jeśli zmienna do imputacji jest skorelowana z inną zmienną kategoryczną, można po prostu uruchomić hot-deck osobno dla każdej z jej kategorii.

Na przykład możesz spodziewać się, że temperatura powietrza zależy od czasu – obserwujemy przecież wzrost średnich temperatur z powodu globalnego ocieplenia. Wskaźnik czasu dostępny w danych tao to zmienna kategoryczna year. Najpierw sprawdź, czy średnia temperatura powietrza różni się między dwoma badanymi latami, a następnie uruchom hot-deck w obrębie domen roku. Na koniec narysuj wykres marginesowy, aby ocenić jakość imputacji.

Instrukcje

100 XP
  • Oblicz średnią wartość air_temp dla każdego roku, zapisując wynik jako average_air_temp i pomijając wartości NA w obliczeniach.
  • Zaimputuj brakujące wartości w kolumnie air_temp w danych tao w obrębie domen year przy użyciu imputacji hot-deck i przypisz wynik do tao_imp.
  • Utwórz wykres marginesowy dla air_temp i sea_surface_temp; pamiętaj, aby uwzględnić air_temp_imp wśród zmiennych przekazywanych do funkcji rysującej.