1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Exercise

Test t dla MAR: przygotowanie danych

Świetna robota z klasyfikowaniem mechanizmów brakujących danych w poprzednim ćwiczeniu! Spośród wszystkich trzech mechanizmów MAR jest prawdopodobnie najważniejszym do wykrycia – wiele metod imputacji zakłada bowiem, że dane są MAR. To ćwiczenie skupia się właśnie na testowaniu tego mechanizmu.

Będziesz pracować ze znajomym zbiorem danych biopics. Celem jest sprawdzenie, czy liczba brakujących wartości w zmiennej earnings różni się w zależności od płci osoby, której dotyczy biogram. W tym ćwiczeniu przygotujesz dane do testu t. Najpierw utworzysz zmienną zastępczą (ang. dummy variable) wskazującą na brakujące wartości w earnings. Następnie podzielisz dane według płci – filtrując zbiór tak, aby zachować jedną płeć, a potem wyciągając zmienną zastępczą. Przy filtrowaniu warto wyświetlić w konsoli funkcję head() na zbiorze biopics i przyjrzeć się zmiennej opisującej płeć.

Instrukcje

100 XP
  • Dodaj do zbioru biopics nową zmienną missing_earnings, która przyjmuje wartość TRUE, jeśli w earnings brakuje danych, i FALSE w przeciwnym wypadku.
  • Utwórz wektor wartości missing_earnings dla mężczyzn i przypisz go do zmiennej missing_earnings_males.
  • Utwórz wektor wartości missing_earnings dla kobiet i przypisz go do zmiennej missing_earnings_females.