Eksploracja danych kredytowych

W kolejnych ćwiczeniach w tym kursie będziemy analizować zbiór danych loan_data omówiony w materiale wideo.

Mając dostęp do loan_data, chcesz przyjrzeć się bliżej niespłaconym pożyczkom. Interesuje cię zarówno ich liczba, jak i udział procentowy. Przypadki niewywiązania się ze spłaty (ang. default) są rzadkie, dlatego zawsze warto sprawdzić, jaka jest ich proporcja w zbiorze danych o pożyczkach. Przydatnym narzędziem jest tutaj funkcja CrossTable().

Pamiętaj, że informacja o niespłaceniu pożyczki jest przechowywana w zmiennej odpowiedzi loan_status, gdzie 1 oznacza default (niespłacenie), a 0 – non-default (spłacenie).

Aby lepiej poznać strukturę zmiennych i wykryć nieoczekiwane zależności w danych, warto zbadać relację między loan_status a wybranymi zmiennymi typu factor. Można na przykład oczekiwać, że odsetek niespłaconych pożyczek wśród klientów z oceną kredytową grade G (najgorsza ocena) będzie znacznie wyższy niż w grupie grade A (najlepsza ocena).

Funkcja CrossTable() obsługuje także dwie zmienne kategoryczne jednocześnie. Sprawdź, jak to działa!

Zapoznaj się ze zbiorem danych, sprawdzając jego strukturę za pomocą str().
Wczytaj pakiet gmodels, używając library(). Jest już zainstalowany na serwerach DataCamp.
Wywołaj CrossTable() dla statusu pożyczki, podając tylko jeden argument: loan_data$loan_status.
Wywołaj CrossTable() z argumentem x równym loan_data$grade i argumentem y równym loan_data$loan_status. Chcemy uwzględnić wyłącznie proporcje wierszowe, więc ustaw prop.r na TRUE, natomiast prop.c, prop.t i prop.chisq na FALSE (domyślne wartości to TRUE, co spowodowałoby wyświetlenie proporcji kolumnowych, proporcji tabelarycznych i wkładów chi-kwadrat dla każdej komórki – tutaj nie są nam potrzebne).

ćwiczenie

Eksploracja danych kredytowych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie