1. Nauka
  2. /
  3. Kursy
  4. /
  5. Projektowanie eksperymentów w R

Connected

ćwiczenie

Radzenie sobie z brakującymi wynikami testów

Jeśli chcemy używać wyników SAT jako zmiennej wynikowej, warto zbadać brakujące dane. Sprawdź wzorzec braków dla wszystkich zmiennych w nyc_scores za pomocą funkcji miss_var_summary() z pakietu naniar. naniar współpracuje ze stylem kodowania Tidyverse, łącznie z operatorem potoku (%>%).

W każdym przedmiocie brakuje 60 wyników. Chociaż istnieje wiele pakietów R wspierających bardziej zaawansowane metody imputacji, takie jak MICE, Amelia czy mi, my nadal będziemy korzystać z simputation i funkcji impute_median().

Utwórz nowy zbiór danych nyc_scores_2, imputując wyniki z matematyki według dzielnicy (Borough). Pamiętaj, że impute_median() zwraca imputowaną zmienną jako typ "impute" – jej konwersję do typu numerycznego wykonasz w osobnym kroku.

Pakiety simputation i dplyr są już załadowane.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Załaduj pakiet naniar.
  • Zbadaj braki danych w zmiennych zbioru nyc_scores, przekazując go potokiem do funkcji miss_var_summary().