1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modelowanie ryzyka kredytowego w R

Connected

ćwiczenie

Wartości odstające

Czas przyjrzeć się strukturze zmiennej age. Po prawej stronie widoczny jest histogram. Podobnie jak w przypadku rocznego dochodu (annual_inc) omówionego w lekcji wideo, po prawej stronie wykresu widać dużo pustej przestrzeni. To może wskazywać na obecność wartości odstających. Sprawdź to, tworząc wykres punktowy, a jeśli znajdziesz takie wartości, usuń je.

Jeśli wartości odstające pojawiają się w kilku zmiennych, warto przyjrzeć się wykresom dwuwymiarowym. Możliwe, że te same obserwacje są źródłem problemów w wielu miejscach. Jeśli tak jest, tym bardziej warto je usunąć, bo istnieje większe prawdopodobieństwo, że zawierają błędne dane.

Instrukcje

100 XP
  • Stwórz wykres punktowy zmiennej age (korzystając z loan_data$age) za pomocą funkcji plot(). Jako drugi argument podaj ylab, nadając osi Y etykietę "Age".
  • Najstarsza osoba w tym zbiorze danych ma ponad 122 lata! Za pomocą funkcji which() i warunku loan_data$age > 122 znajdź indeks tej wartości odstającej. Przypisz go do obiektu index_highage.
  • Utwórz nowy zbiór danych new_data, usuwając z niego obserwację z zawyżonym wiekiem, korzystając z obiektu index_highage.
  • Przyjrzyj się dwuwymiarowemu wykresowi punktowemu, na którym oś X przedstawia wiek, a oś Y – roczny dochód. Zmień etykiety na odpowiednio "Age" i "Annual Income".