Verwendung von stat_sum
Im Datensatz Vocab sind education und vocabulary Ganzzahlvariablen. Im ersten Kurs hast du gesehen, dass dies eine der vier Ursachen für Overplotting ist. Du würdest an jedem Schnittpunkt der beiden Variablen einen einzelnen Punkt erhalten.
Eine Lösung, wie in Schritt 1 gezeigt, ist Jittering mit Transparenz. Eine andere Lösung ist die Verwendung von stat_sum(), das die Gesamtzahl der überlappenden Beobachtungen berechnet und auf die size-Ästhetik abbildet.
stat_sum() erlaubt eine spezielle Variable, ..prop.., um den Anteil der Werte innerhalb des Datensatzes zu zeigen.
Diese Übung ist Teil des Kurses
<Kurs>Fortgeschrittene Datenvisualisierung mit ggplot2</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Run this, look at the plot, then update it
ggplot(Vocab, aes(x = education, y = vocabulary)) +
# Replace this with a sum stat
geom_jitter(alpha = 0.25)