Overplotting 1: grote datasets
Scatterplots (met geom_point()) zijn intuïtief, makkelijk te begrijpen en heel gebruikelijk, maar we moeten altijd rekening houden met overplotting, vooral in de volgende vier situaties:
- Grote datasets
- Uitgelijnde waarden op één as
- Data met lage precisie
- Gehele-getallendata
Meestal wordt alpha-blending (dus transparantie toevoegen) aanbevolen bij het gebruik van massieve vormen. Als alternatief kun je ondoorzichtige, holle vormen gebruiken.
Kleine punten zijn geschikt voor grote datasets met gebieden van hoge dichtheid (veel overlapping).
Laten we de diamonds-gegevensset gebruiken om te oefenen met het geval van een grote dataset.
Deze oefening maakt deel uit van de cursus
Introductie tot datavisualisatie met ggplot2
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Plot price vs. carat, colored by clarity
plt_price_vs_carat_by_clarity <- ggplot(diamonds, aes(carat, price, color = clarity))
# Add a point layer with tiny points
plt_price_vs_carat_by_clarity + ___