1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Inicjalizacja brakujących wartości i iteracja po zmiennych

Jak właśnie widzisz, wywołanie impute_lm() nie zawsze uzupełnia wszystkie brakujące wartości. Aby mieć pewność, że żadna z nich nie zostanie pominięta, warto najpierw zainicjalizować braki prostą metodą – na przykład imputacją hot-deck poznaną w poprzednim rozdziale, która po prostu przenosi ostatnią zaobserwowaną wartość.

Poza tym pojedyncza imputacja zazwyczaj nie wystarcza. Opiera się na podstawowych wartościach inicjalnych i może być obciążona błędem. Właściwe podejście polega na iterowaniu po zmiennych i imputowaniu ich po jednej, wyłącznie w miejscach, gdzie pierwotnie brakowało danych.

W tym ćwiczeniu najpierw zainicjalizujesz brakujące wartości za pomocą imputacji hot-deck, a następnie pięciokrotnie wykonasz pętlę po zmiennych air_temp i humidity ze zbioru danych tao, imputując je za pomocą regresji liniowej. Do dzieła!

Instrukcje

100 XP
  • Zainicjalizuj brakujące wartości za pomocą imputacji hotdeck().
  • Utwórz maskę logiczną wskazującą miejsca, gdzie pierwotnie brakowało wartości humidity, i przypisz ją do missing_humidity.
  • Wewnątrz pętli for ustaw wartości humidity w tao_imp na NA w miejscach, gdzie pierwotnie brakowało danych – użyj do tego utworzonej maski logicznej.
  • Wewnątrz pętli for zaimputuj humidity w tao_imp za pomocą regresji liniowej, używając year, latitude, sea_surface_temp i air_temp jako predyktorów, a wynik przypisz z powrotem do tao_imp.