Surcharge 1 : grands ensembles de données
Les diagrammes en nuages de points (utilisant geom_point()
) sont intuitifs, faciles à comprendre et très courants, mais il faut toujours faire attention à la surcharge, en particulier dans les quatre situations suivantes :
- Grands ensembles de données
- Valeurs alignées sur un seul axe
- Données à faible précision
- Données sous forme de nombres entiers
En règle générale, il est recommandé d'utiliser l’alpha (c'est-à-dire d'ajouter de la transparence) avec des formes pleines. Vous pouvez également utiliser des formes opaques et vides.
Les petits points conviennent aux grands ensembles de données comportant des régions à forte densité (beaucoup de chevauchements).
Utilisons l'ensemble de données diamonds
pour nous entraîner aux grands ensembles de données.
Cet exercice fait partie du cours
Introduction à la visualisation de données avec ggplot2
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Plot price vs. carat, colored by clarity
plt_price_vs_carat_by_clarity <- ggplot(diamonds, aes(carat, price, color = clarity))
# Add a point layer with tiny points
plt_price_vs_carat_by_clarity + ___