Uitschieters
Tijd om naar de structuur van de variabele age te kijken. Rechts staat een histogram. Net als wat je in de video zag voor het jaarlijkse inkomen (annual_inc), is er veel lege ruimte aan de rechterkant van de plot. Dat wijst op mogelijke uitschieters. Je gaat dit verifiëren met een scatterplot. Als je uitschieters vindt, verwijder je ze.
Als er voor meerdere variabelen uitschieters zijn, is het handig om naar bivariate plots te kijken. Het kan dat de uitschieters bij dezelfde observatie horen. In dat geval is er nog meer reden om de observatie te verwijderen, omdat de kans groter is dat sommige informatie daarin onjuist is.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in R
Oefeninstructies
- Maak een scatterplot van de variabele
age(vialoan_data$age) met de functieplot(). Geef de y-as het label"Age"metylabals tweede argument. - De oudste persoon in deze gegevensset is ouder dan 122 jaar! Haal de index van deze uitschieter op met which() en gebruik de leeftijd van 122 als afkappunt (je kunt dit doen met
loan_data$age > 122). Ken dit toe aan het objectindex_highage. - Maak een nieuwe gegevensset
new_datadoor de observatie met de hoge leeftijd te verwijderen met behulp van het objectindex_highage. - Bekijk de bivariate scatterplot, met leeftijd op de x-as en jaarlijks inkomen op de y-as. Pas de labels aan naar
"Age"en"Annual Income".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Plot the age variable
# Save the outlier's index to index_highage
# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]
# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")