Histogram naar KDE
In deze oefeningen kijken we naar een subset van onze gegevens met boetes die zijn uitgedeeld aan "Heavy Duty Truck"s. Stel, je bent een datagedreven vrachtwagenchauffeur en je wilt weten wat de gevaarlijkste tijd is om de weg op te gaan. Let op: de steekproefomvang is hier slechts 32 observaties.
Hieronder staat code om met ggplot een standaardhistogram te maken. Niet verrassend is dat niet ideaal. Er zijn eigenlijk niet genoeg gegevens om zelfs maar 30 bins te vullen, waardoor het lastig te lezen is en je weinig gevoel voor de verdeling krijgt. Schakel de geometrie om naar een KDE met geom_density(). Voeg ten slotte, om zo transparant mogelijk te zijn met je visualisatie, een subtitel toe aan de plot die de kijker vertelt welke binbreedte je voor je KDE hebt gebruikt.
Deze oefening maakt deel uit van de cursus
Best practices voor visualisaties in R
Oefeninstructies
- Verander de histogramgeometrie naar een dichtheidsplot (
geom_density()). - Pas de standaard binbreedte aan naar
1.5eenheden. - Voeg de
subtitle"Gaussian kernel SD = 1.5"toe aan je plot, zodat de lezer weet wat de binbreedte van je kernel is.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# filter data to just heavy duty trucks
truck_speeding <- md_speeding %>%
filter(vehicle_type == "Heavy Duty Truck")
ggplot(truck_speeding, aes(x = hour_of_day)) +
# switch to density with bin width of 1.5, keep fill
geom_histogram(fill = 'steelblue') +
# add a subtitle stating binwidth
labs(title = 'Citations by hour')