Histogrammen

De gegevensset loan_data is geladen in je werkruimte. Eerder heb je categorische variabelen onderzocht met de functie CrossTable(). Nu wil je continue variabelen verkennen om mogelijke uitschieters of onverwachte datastructuren te identificeren.

Laten we hiervoor experimenteren met de functie hist() om de verdeling van het aantal leningen voor verschillende klanten te begrijpen.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in R

Bekijk cursus

Oefeninstructies

Gebruik hist() om een histogram te maken met slechts één argument: loan_data$loan_amnt. Ken het resultaat toe aan een nieuw object hist_1.
Gebruik $breaks samen met het object hist_1 om meer informatie te krijgen over de histogram-bins. Het kennen van de locatie van de breaks is belangrijk, want als ze slecht gekozen zijn, kan het histogram misleidend zijn.
Verander het aantal breaks in hist_1 naar 200 door het argument breaks te specificeren. Geef daarnaast de x-as de naam "Loan amount" met het argument xlab en de titel "Histogram of the loan amount" met het argument main. Sla het resultaat op in hist_2. Waarom ontstaan de pieken waar ze ontstaan?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create histogram of loan_amnt: hist_1


# Print locations of the breaks in hist_1


# Change number of breaks and add labels: hist_2
hist_2 <- hist(loan_data$loan_amnt, breaks = ___, xlab = "___", 
               main = "___")

Code bewerken en uitvoeren