Da istogramma a KDE
Per questi esercizi, guarderemo a un sottoinsieme dei nostri dati: le multe assegnate ai "Heavy Duty Truck". Potremmo essere un camionista esperto di dati e voler capire qual è l’orario più pericoloso per essere in strada. Nota che la dimensione del campione qui è di sole 32 osservazioni.
Qui sotto c’è il codice per creare un istogramma predefinito con ggplot. Non sorprende che non sia granché: non ci sono abbastanza dati per riempire nemmeno 30 bin, rendendo il grafico difficile da leggere e interpretare. Passa alla geometria KDE usando geom_density(). Infine, per essere il più trasparente possibile con la tua visualizzazione, aggiungi un sottotitolo al grafico che indichi al lettore l’ampiezza di banda usata per la tua KDE.
Questo esercizio fa parte del corso
Buone pratiche di visualizzazione in R
Istruzioni dell'esercizio
- Cambia la geometria da istogramma a densità (
geom_density()). - Modifica l’ampiezza di banda predefinita impostandola a
1.5unità. - Aggiungi al grafico il
subtitle"Gaussian kernel SD = 1.5", così il lettore saprà l’ampiezza di banda del tuo kernel.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# filter data to just heavy duty trucks
truck_speeding <- md_speeding %>%
filter(vehicle_type == "Heavy Duty Truck")
ggplot(truck_speeding, aes(x = hour_of_day)) +
# switch to density with bin width of 1.5, keep fill
geom_histogram(fill = 'steelblue') +
# add a subtitle stating binwidth
labs(title = 'Citations by hour')