De l’histogramme à la KDE
Dans ces exercices, nous allons examiner un sous-ensemble de nos données : les contraventions infligées aux "Heavy Duty Truck". Imaginons que vous soyez un conducteur averti et que vous vouliez savoir à quel moment il est le plus dangereux d’être sur la route. Notez que la taille de l’échantillon n’est ici que de 32 observations.
Ci-dessous, vous trouverez du code pour créer un histogramme par défaut avec ggplot. Sans surprise, ce n’est pas idéal. Il n’y a pas vraiment assez de données pour remplir 30 classes, ce qui rend le graphique difficile à lire et l’ensemble peu lisible. Remplacez la géométrie par une densité à noyau (KDE) en utilisant geom_density(). Enfin, pour garantir un maximum de transparence dans votre visualisation, ajoutez un sous-titre au graphique indiquant au lecteur la largeur de bande utilisée pour votre KDE.
Cet exercice fait partie du cours
Bonnes pratiques de visualisation avec R
Instructions
- Remplacez la géométrie d’histogramme par une géométrie de densité (
geom_density()). - Modifiez la largeur de bande par défaut pour qu’elle soit de
1.5unités. - Ajoutez le
subtitle"Gaussian kernel SD = 1.5"à votre graphique, pour indiquer au lecteur la largeur de bande de votre noyau.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# filter data to just heavy duty trucks
truck_speeding <- md_speeding %>%
filter(vehicle_type == "Heavy Duty Truck")
ggplot(truck_speeding, aes(x = hour_of_day)) +
# switch to density with bin width of 1.5, keep fill
geom_histogram(fill = 'steelblue') +
# add a subtitle stating binwidth
labs(title = 'Citations by hour')