Maryland-Kriminalitätsdaten visualisieren
Bevor du ein Modell anpasst, hilft ein Plot der Daten dabei, zu sehen, ob Trends oder Ausreißer ins Auge fallen oder ob andere Merkmale der Daten später berücksichtigt werden müssen.
Mit ggplot2 kannst du für jede County Linien zeichnen und untersuchen, wie sich Straftaten über die Zeit verändern.
Betrachte in dieser Übung die Maryland-Kriminalitätsdaten (md_crime). Sie enthalten das Year, die Anzahl der schweren Crimes in der County und den Namen der County.
Um diese Daten zu erkunden, plottest du zunächst die Datenpunkte für jede County über die Zeit. So siehst du, wie sich jede County im Zeitverlauf verändert. Anstelle eines ästhetischen Merkmals wie color verwenden wir hier group, weil es zu viele Countys gibt, um Farben gut zu unterscheiden. Nachdem du die Rohdaten geplottet hast, fügst du Trendlinien für jede County hinzu.
Sowohl die verbundenen Punkte (geom_line) als auch die Trendlinien (geom_smooth) liefern Hinweise darauf, ob und welche Arten von Zufallseffekten erforderlich sind. Wenn alle Punkte ähnliche Bereiche und Mittelwerte haben, ist ein Random-Intercept möglicherweise nicht wichtig. Ebenso gilt: Wenn die Trends über die Countys hinweg konsistent wirken (d. h. die Trendlinien sehen ähnlich oder parallel zwischen den Gruppen aus), ist ein Random-Slope eventuell nicht nötig.
Diese Übung ist Teil des Kurses
Hierarchische und gemischte Effekte-Modelle in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Plot the change in crime through time by County
plot1 <-
ggplot(data = md_crime,
aes(x = ___, y = ___, group = ___)) +
geom_line() +
theme_minimal() +
ylab("Major crimes reported per county")
print(plot1)
# Add the trend line for each county
plot1 + ___