1. Learn
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Łączenie imputacji i modelowania w jednej funkcji

Zawsze gdy przeprowadzasz analizę lub budujesz model na danych po imputacji, powinieneś uwzględnić niepewność wynikającą z tego procesu. Uruchomienie modelu na zbiorze danych poddanym imputacji tylko raz pomija fakt, że imputacja szacuje brakujące wartości z pewną niepewnością. Błędy standardowe takiego modelu są zazwyczaj zbyt małe. Rozwiązaniem jest wielokrotna imputacja – jednym ze sposobów jej realizacji jest bootstrapping.

W kolejnych ćwiczeniach będziesz pracować ze znajomym zbiorem danych biopics. Celem jest zastosowanie wielokrotnej imputacji metodą bootstrappingu oraz regresji liniowej, aby sprawdzić, czy – na podstawie dostępnych danych – filmy biograficzne o kobietach przynoszą niższe przychody niż te o mężczyznach.

Zacznijmy od napisania funkcji, która tworzy próbkę bootstrapową, imputuje ją i dopasowuje model regresji liniowej.

Instructions

100 XP
  • Wytnij wiersze ze zbioru data wskazane przez indices, by pobrać próbkę z powrotem do populacji, i przypisz wynik do data_boot.
  • Wykonaj imputację kNN z 5 sąsiadami na próbce bootstrapowej data_boot i przypisz wynik do data_imp.
  • Dopasuj model regresji liniowej do zbioru data_imp, który wyjaśnia zmienną earnings za pomocą sub_sex, sub_type i year.