Histogram naar KDE

In deze oefeningen kijken we naar een subset van onze gegevens met boetes die zijn uitgedeeld aan "Heavy Duty Truck"s. Stel, je bent een datagedreven vrachtwagenchauffeur en je wilt weten wat de gevaarlijkste tijd is om de weg op te gaan. Let op: de steekproefomvang is hier slechts 32 observaties.

Hieronder staat code om met ggplot een standaardhistogram te maken. Niet verrassend is dat niet ideaal. Er zijn eigenlijk niet genoeg gegevens om zelfs maar 30 bins te vullen, waardoor het lastig te lezen is en je weinig gevoel voor de verdeling krijgt. Schakel de geometrie om naar een KDE met geom_density(). Voeg ten slotte, om zo transparant mogelijk te zijn met je visualisatie, een subtitel toe aan de plot die de kijker vertelt welke binbreedte je voor je KDE hebt gebruikt.

Deze oefening maakt deel uit van de cursus

Best practices voor visualisaties in R

Bekijk cursus

Oefeninstructies

Verander de histogramgeometrie naar een dichtheidsplot (geom_density()).
Pas de standaard binbreedte aan naar 1.5 eenheden.
Voeg de subtitle "Gaussian kernel SD = 1.5" toe aan je plot, zodat de lezer weet wat de binbreedte van je kernel is.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# filter data to just heavy duty trucks
truck_speeding <- md_speeding %>% 
    filter(vehicle_type == "Heavy Duty Truck")
 
ggplot(truck_speeding, aes(x = hour_of_day)) +
    # switch to density with bin width of 1.5, keep fill 
    geom_histogram(fill = 'steelblue') +
    # add a subtitle stating binwidth
    labs(title = 'Citations by hour')

Code bewerken en uitvoeren