1. Nauka
  2. /
  3. Kursy
  4. /
  5. Skalowalne przetwarzanie danych w R

Connected

ćwiczenie

Szukanie przewidywalnych braków danych

Jeśli dane są losowo nieobecne, nie powinno być możliwe przewidzenie, kiedy dana zmienna nie ma wartości, na podstawie pozostałych danych. Jeśli zatem możesz przewidzieć braki, dane nie są brakujące w sposób całkowicie losowy. Użyjmy funkcji glm(), aby dopasować regresję logistyczną i sprawdzić, czy braki w zmiennej mort można powiązać z dostępnością cenową. Jeśli nie znajdziesz żadnej struktury w brakujących danych – tzn. zmienne określające nachylenie nie są istotne – nie oznacza to dowodu na losowość braków, ale hipoteza ta jest wtedy wiarygodna.

Instrukcje

100 XP
  • Utwórz zmienną wskazującą, czy wartość "borrower_race" jest brakująca (równa 9) w danych o kredytach hipotecznych.
  • Utwórz zmienną czynnikową na podstawie kolumny "affordability".
  • Dokonaj regresji affordability_factor względem borrower_race_ind i wywołaj na wyniku funkcję summary().