Průzkum úvěrových dat

V průběhu cvičení v tomto kurzu budeme pracovat s datasetem loan_data, o kterém jsi se dozvěděl/a ve videu.

Zajímají tě zejména nesplacené úvěry v tomto datasetu. Chceš získat přehled o jejich počtu a procentuálním podílu. Defaulty jsou vzácné, takže je vždy dobré zkontrolovat, jaký je jejich podíl v datasetech úvěrů. Funkce CrossTable() je v tomto případě velmi užitečná.

Informace o defaultu je uložena v proměnné loan_status, kde 1 označuje default a 0 označuje non-default.

Abys lépe porozuměl/a struktuře proměnných a odhalil/a neočekávané vzory v datech, prozkoumej vztah mezi loan_status a určitými proměnnými typu factor. Dalo by se například očekávat, že podíl defaultů ve skupině zákazníků s ratingem grade G (nejhorší kreditní hodnocení) bude výrazně vyšší než podíl defaultů ve skupině grade A (nejlepší kreditní hodnocení).

Funkci CrossTable() lze přitom snadno použít i na dvě kategorické proměnné najednou. Pojďme to prozkoumat!

Seznám se s datasetem tak, že se podíváš na jeho strukturu pomocí funkce str().
Načti balíček gmodels pomocí funkce library(). Na serverech DataCampu je již nainstalován.
Prohlédni si CrossTable() pro stav úvěru s jediným argumentem: loan_data$loan_status.
Zavolej CrossTable() s argumentem x nastaveným na loan_data$grade a argumentem y nastaveným na loan_data$loan_status. Chceme zobrazit pouze řádkové proporce, takže nastav prop.r na TRUE, ale prop.c, prop.t a prop.chisq na FALSE (výchozí hodnoty jsou TRUE, což by vedlo k zahrnutí sloupcových proporcí, tabulkových proporcí a příspěvků chí-kvadrátu pro každou buňku – to zde nepotřebujeme).

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení