CommencerCommencer gratuitement

KDE avec beaucoup de données

Le code fourni produit une KDE de base de percentage_over_limit pour toutes les contraventions. À première vue, les paramètres semblent cohérents. Nous avons beaucoup de données, donc nous fixons une largeur de classe très étroite : un pour cent seulement. De plus, le rug plot, judicieusement ajouté, a une alpha réduite à 0.7.

En exécutant ce code, vous verrez immédiatement que le graphique n’est pas terrible. L’estimation de densité ressemble à un porc-épic et le rug plot devient une épaisse barre noire à cause du chevauchement massif.

Corrigez cela en augmentant un peu la largeur de classe à 2.5 et en abaissant l’alpha du rug plot à 0.05 pour mieux percevoir le chevauchement des points. N’oubliez pas de modifier le sous-titre pour refléter le nouveau réglage de la largeur du noyau !

Cet exercice fait partie du cours

Bonnes pratiques de visualisation avec R

Afficher le cours

Instructions

  • Modifier l’écart‑type du noyau à 2.5
  • Régler l’alpha du rug plot à 0.05
  • Changer le subtitle en "Gaussian kernel SD = 2.5" pour refléter la nouvelle largeur du noyau.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

ggplot(md_speeding, aes(x = percentage_over_limit)) +
    # Increase bin width to 2.5
    geom_density(fill = 'steelblue', bw = 1,  alpha = 0.7) + 
    # lower rugplot alpha to 0.05
    geom_rug(alpha = 0.5) + 
    labs(
        title = 'Distribution of % over speed limit', 
        # modify subtitle to reflect change in kernel width
        subtitle = "Gaussian kernel SD = 1"
    )
Modifier et exécuter le code