Aan de slagGa gratis aan de slag

Uitschieters

Tijd om naar de structuur van de variabele age te kijken. Rechts staat een histogram. Net als wat je in de video zag voor het jaarlijkse inkomen (annual_inc), is er veel lege ruimte aan de rechterkant van de plot. Dat wijst op mogelijke uitschieters. Je gaat dit verifiëren met een scatterplot. Als je uitschieters vindt, verwijder je ze.

Als er voor meerdere variabelen uitschieters zijn, is het handig om naar bivariate plots te kijken. Het kan dat de uitschieters bij dezelfde observatie horen. In dat geval is er nog meer reden om de observatie te verwijderen, omdat de kans groter is dat sommige informatie daarin onjuist is.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in R

Cursus bekijken

Oefeninstructies

  • Maak een scatterplot van de variabele age (via loan_data$age) met de functie plot(). Geef de y-as het label "Age" met ylab als tweede argument.
  • De oudste persoon in deze gegevensset is ouder dan 122 jaar! Haal de index van deze uitschieter op met which() en gebruik de leeftijd van 122 als afkappunt (je kunt dit doen met loan_data$age > 122). Ken dit toe aan het object index_highage.
  • Maak een nieuwe gegevensset new_data door de observatie met de hoge leeftijd te verwijderen met behulp van het object index_highage.
  • Bekijk de bivariate scatterplot, met leeftijd op de x-as en jaarlijks inkomen op de y-as. Pas de labels aan naar "Age" en "Annual Income".

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Plot the age variable


# Save the outlier's index to index_highage


# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]

# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")
Code bewerken en uitvoeren