De kredietgegevens verkennen
In deze cursus ga je in de oefeningen aan de slag met de gegevensset loan_data die in de video is besproken.
Nu je loan_data hebt, ben je vooral benieuwd naar de leningen die in gebreke zijn gebleven in de gegevensset. Je wilt een idee krijgen van het aantal en het percentage defaults. Defaults zijn zeldzaam, dus je wilt altijd controleren wat het aandeel defaults is in een leninggegevensset. De functie CrossTable() is hier erg handig voor.
Onthoud dat de default-informatie is opgeslagen in de responsvariabele loan_status, waarbij 1 staat voor default en 0 voor non-default.
Om meer te leren over variabelestructuren en onverwachte patronen in de data te spotten, bekijk je de relatie tussen loan_status en bepaalde factor-variabelen. Zo verwacht je bijvoorbeeld dat het aandeel defaults in de groep klanten met grade G (slechtste kredietscore) aanzienlijk hoger is dan het aandeel defaults in de groep met grade A (beste kredietscore).
Handig genoeg kun je CrossTable() ook toepassen op twee categorische variabelen. Laten we dit verkennen!
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in R
Oefeninstructies
- Maak kennis met de gegevensset door naar de structuur te kijken met
str(). - Laad het pakket gmodels met
library(). Het is al geïnstalleerd op de servers van DataCamp. - Bekijk de
CrossTable()van de leningstatus met slechts één argument:loan_data$loan_status. - Roep
CrossTable()aan met alsx-argumentloan_data$gradeen alsy-argumentloan_data$loan_status. We willen alleen rijproporties, dus zetprop.ropTRUE, maarprop.c,prop.tenprop.chisqopFALSE(de standaardwaarden hier zijnTRUE, wat zou leiden tot opname van kolomproporties, tabelproporties en chi-kwadraatbijdragen per cel. Dat hebben we hier niet nodig.)
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# View the structure of loan_data
# Load the gmodels package
# Call CrossTable() on loan_status
# Call CrossTable() on grade and loan_status