Histogrammen
De gegevensset loan_data is geladen in je werkruimte. Eerder heb je categorische variabelen onderzocht met de functie CrossTable(). Nu wil je continue variabelen verkennen om mogelijke uitschieters of onverwachte datastructuren te identificeren.
Laten we hiervoor experimenteren met de functie hist() om de verdeling van het aantal leningen voor verschillende klanten te begrijpen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in R
Oefeninstructies
- Gebruik hist() om een histogram te maken met slechts één argument:
loan_data$loan_amnt. Ken het resultaat toe aan een nieuw objecthist_1. - Gebruik
$breakssamen met het objecthist_1om meer informatie te krijgen over de histogram-bins. Het kennen van de locatie van de breaks is belangrijk, want als ze slecht gekozen zijn, kan het histogram misleidend zijn. - Verander het aantal breaks in
hist_1naar 200 door het argumentbreakste specificeren. Geef daarnaast de x-as de naam"Loan amount"met het argumentxlaben de titel"Histogram of the loan amount"met het argumentmain. Sla het resultaat op inhist_2. Waarom ontstaan de pieken waar ze ontstaan?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create histogram of loan_amnt: hist_1
# Print locations of the breaks in hist_1
# Change number of breaks and add labels: hist_2
hist_2 <- hist(loan_data$loan_amnt, breaks = ___, xlab = "___",
main = "___")