Maryland-misdaaddata visualiseren
Voordat je een model fit, is het handig om de data te plotten om te kunnen zíén of er trends of punten uitspringen, of er uitschieters zijn, of dat andere eigenschappen van de data extra aandacht vragen.
Met ggplot2 kun je per county lijnen plotten en bekijken hoe misdaad door de tijd verandert.
Voor deze oefening bekijk je de Maryland-misdaaddata (md_crime). Deze bevat het Year, een telling van gewelddadige Crimes in de county, en de naam van de County.
Om deze data te verkennen, plot je eerst de punten voor elke county door de tijd. Zo zie je hoe elke county door de tijd verandert. In plaats van een esthetiek als color te gebruiken, gebruiken we hier group, omdat er te veel counties zijn om kleuren goed te onderscheiden. Nadat je de ruwe data hebt geplot, voeg je trendlijnen voor elke county toe.
Zowel het verbinden van punten (geom_line) als de trendlijnen (geom_smooth) geven inzicht in welke, als die er zijn, soorten random effects nodig zijn. Als alle punten vergelijkbare bereiken en gemiddelden hebben, is een random intercept mogelijk niet belangrijk. Evenzo, als trends consistent lijken over counties (dus de trendlijnen lijken op elkaar of lopen parallel tussen groepen), is een random helling mogelijk niet nodig.
Deze oefening maakt deel uit van de cursus
Hiërarchische en Mixed-Effects-modellen in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Plot the change in crime through time by County
plot1 <-
ggplot(data = md_crime,
aes(x = ___, y = ___, group = ___)) +
geom_line() +
theme_minimal() +
ylab("Major crimes reported per county")
print(plot1)
# Add the trend line for each county
plot1 + ___