KDE met veel data
De meegeleverde code maakt een basis-KDE van percentage_over_limit voor alle boetes. Op het eerste gezicht lijken de instellingen logisch. We hebben veel data, dus we kiezen een smalle binbreedte: slechts één procent. Ook is de rug-plot netjes toegevoegd met een verlaagde alpha van 0.7.
Als je deze code uitvoert, zie je meteen dat het geen goede plot is. De dichtheidsschatting ziet eruit als een stekelvarken en de rug-plot is door de enorme overlap eigenlijk een dikke zwarte balk.
Los dit op door de binbreedte te verhogen naar 2.5 en de alpha van de rug-plot te verlagen naar 0.05, zodat de punt-overlap beter zichtbaar wordt. Vergeet niet de subtitel aan te passen zodat de wijziging in de kernelbreedte duidelijk is!
Deze oefening maakt deel uit van de cursus
Best practices voor visualisaties in R
Oefeninstructies
- Verander de standaarddeviatie van de kernel naar
2.5 - Zet de
alphavan de rug-plot op0.05 - Pas de
subtitleaan naar"Gaussian kernel SD = 2.5"zodat de nieuwe kernelbreedte wordt weergegeven.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
ggplot(md_speeding, aes(x = percentage_over_limit)) +
# Increase bin width to 2.5
geom_density(fill = 'steelblue', bw = 1, alpha = 0.7) +
# lower rugplot alpha to 0.05
geom_rug(alpha = 0.5) +
labs(
title = 'Distribution of % over speed limit',
# modify subtitle to reflect change in kernel width
subtitle = "Gaussian kernel SD = 1"
)