KDE avec beaucoup de données
Le code fourni produit une KDE de base de percentage_over_limit pour toutes les contraventions. À première vue, les paramètres semblent cohérents. Nous avons beaucoup de données, donc nous fixons une largeur de classe très étroite : un pour cent seulement. De plus, le rug plot, judicieusement ajouté, a une alpha réduite à 0.7.
En exécutant ce code, vous verrez immédiatement que le graphique n’est pas terrible. L’estimation de densité ressemble à un porc-épic et le rug plot devient une épaisse barre noire à cause du chevauchement massif.
Corrigez cela en augmentant un peu la largeur de classe à 2.5 et en abaissant l’alpha du rug plot à 0.05 pour mieux percevoir le chevauchement des points. N’oubliez pas de modifier le sous-titre pour refléter le nouveau réglage de la largeur du noyau !
Cet exercice fait partie du cours
Bonnes pratiques de visualisation avec R
Instructions
- Modifier l’écart‑type du noyau à
2.5 - Régler l’
alphadu rug plot à0.05 - Changer le
subtitleen"Gaussian kernel SD = 2.5"pour refléter la nouvelle largeur du noyau.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
ggplot(md_speeding, aes(x = percentage_over_limit)) +
# Increase bin width to 2.5
geom_density(fill = 'steelblue', bw = 1, alpha = 0.7) +
# lower rugplot alpha to 0.05
geom_rug(alpha = 0.5) +
labs(
title = 'Distribution of % over speed limit',
# modify subtitle to reflect change in kernel width
subtitle = "Gaussian kernel SD = 1"
)