1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modelowanie ryzyka kredytowego w R

Connected

ćwiczenie

Eksploracja danych kredytowych

W kolejnych ćwiczeniach w tym kursie będziemy analizować zbiór danych loan_data omówiony w materiale wideo.

Mając dostęp do loan_data, chcesz przyjrzeć się bliżej niespłaconym pożyczkom. Interesuje cię zarówno ich liczba, jak i udział procentowy. Przypadki niewywiązania się ze spłaty (ang. default) są rzadkie, dlatego zawsze warto sprawdzić, jaka jest ich proporcja w zbiorze danych o pożyczkach. Przydatnym narzędziem jest tutaj funkcja CrossTable().

Pamiętaj, że informacja o niespłaceniu pożyczki jest przechowywana w zmiennej odpowiedzi loan_status, gdzie 1 oznacza default (niespłacenie), a 0 – non-default (spłacenie).

Aby lepiej poznać strukturę zmiennych i wykryć nieoczekiwane zależności w danych, warto zbadać relację między loan_status a wybranymi zmiennymi typu factor. Można na przykład oczekiwać, że odsetek niespłaconych pożyczek wśród klientów z oceną kredytową grade G (najgorsza ocena) będzie znacznie wyższy niż w grupie grade A (najlepsza ocena).

Funkcja CrossTable() obsługuje także dwie zmienne kategoryczne jednocześnie. Sprawdź, jak to działa!

Instrukcje

100 XP
  • Zapoznaj się ze zbiorem danych, sprawdzając jego strukturę za pomocą str().
  • Wczytaj pakiet gmodels, używając library(). Jest już zainstalowany na serwerach DataCamp.
  • Wywołaj CrossTable() dla statusu pożyczki, podając tylko jeden argument: loan_data$loan_status.
  • Wywołaj CrossTable() z argumentem x równym loan_data$grade i argumentem y równym loan_data$loan_status. Chcemy uwzględnić wyłącznie proporcje wierszowe, więc ustaw prop.r na TRUE, natomiast prop.c, prop.t i prop.chisq na FALSE (domyślne wartości to TRUE, co spowodowałoby wyświetlenie proporcji kolumnowych, proporcji tabelarycznych i wkładów chi-kwadrat dla każdej komórki – tutaj nie są nam potrzebne).