CommencerCommencer gratuitement

De l’histogramme à la KDE

Dans ces exercices, nous allons examiner un sous-ensemble de nos données : les contraventions infligées aux "Heavy Duty Truck". Imaginons que vous soyez un conducteur averti et que vous vouliez savoir à quel moment il est le plus dangereux d’être sur la route. Notez que la taille de l’échantillon n’est ici que de 32 observations.

Ci-dessous, vous trouverez du code pour créer un histogramme par défaut avec ggplot. Sans surprise, ce n’est pas idéal. Il n’y a pas vraiment assez de données pour remplir 30 classes, ce qui rend le graphique difficile à lire et l’ensemble peu lisible. Remplacez la géométrie par une densité à noyau (KDE) en utilisant geom_density(). Enfin, pour garantir un maximum de transparence dans votre visualisation, ajoutez un sous-titre au graphique indiquant au lecteur la largeur de bande utilisée pour votre KDE.

Cet exercice fait partie du cours

Bonnes pratiques de visualisation avec R

Afficher le cours

Instructions

  • Remplacez la géométrie d’histogramme par une géométrie de densité (geom_density()).
  • Modifiez la largeur de bande par défaut pour qu’elle soit de 1.5 unités.
  • Ajoutez le subtitle "Gaussian kernel SD = 1.5" à votre graphique, pour indiquer au lecteur la largeur de bande de votre noyau.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# filter data to just heavy duty trucks
truck_speeding <- md_speeding %>% 
    filter(vehicle_type == "Heavy Duty Truck")
 
ggplot(truck_speeding, aes(x = hour_of_day)) +
    # switch to density with bin width of 1.5, keep fill 
    geom_histogram(fill = 'steelblue') +
    # add a subtitle stating binwidth
    labs(title = 'Citations by hour')
Modifier et exécuter le code