1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Imputacja regresją logistyczną

Popularnym wyborem do imputacji zmiennych binarnych jest regresja logistyczna. Niestety nie istnieje funkcja analogiczna do impute_lm(), która zrobiłaby to za ciebie. Dlatego napiszesz taką funkcję samodzielnie!

Nazwijmy ją impute_logreg(). Jej pierwszy argument to ramka danych df, w której brakujące wartości zostały już zainicjalizowane i brakujące dane występują tylko w kolumnie przeznaczonej do imputacji. Drugi argument to formula dla modelu regresji logistycznej.

Funkcja będzie wykonywać następujące kroki:

  • Zapamiętanie lokalizacji brakujących wartości.
  • Zbudowanie modelu.
  • Wyznaczenie predykcji.
  • Zastąpienie brakujących wartości predykcjami.

Nie przejmuj się linią tworzącą imp_var – to po prostu sposób na wyodrębnienie z formuły nazwy kolumny przeznaczonej do imputacji. Czas na trochę programowania funkcyjnego!

Instrukcje

100 XP
  • Utwórz maskę logiczną wskazującą miejsca, w których df[imp_var] ma brakujące wartości, i przypisz ją do missing_imp_var.
  • Dopasuj model regresji logistycznej, używając formuły i danych przekazanych jako argumenty funkcji; pamiętaj, aby ustawić odpowiedni parametr family zapewniający dopasowanie regresji logistycznej (przekaż go bez cudzysłowów) i przypisz model do logreg_model.
  • Wyznacz predykcje odpowiedzi za pomocą modelu i przypisz je do preds; pamiętaj, aby ustawić odpowiedni typ predykcji (type).
  • Użyj preds razem z missing_imp_var, aby uzupełnić brakujące wartości.