Surcharge 1 : grands ensembles de données
Les diagrammes en nuages de points (à l'aide de geom_point()
) sont intuitifs, faciles à comprendre et très courants, mais il faut toujours faire attention à la surcharge, en particulier dans les quatre situations suivantes :
- Grands ensembles de données
- Valeurs alignées sur un seul axe
- Données de faible précision
- Données sous forme de nombres entiers
En règle générale, il est recommandé d'utiliser l’élément alpha (c'est-à-dire d'ajouter de la transparence) lors de l'utilisation de formes solides. Vous pouvez également utiliser des formes opaques et creuses.
Les petits points conviennent aux grands ensembles de données comportant des régions à forte densité (beaucoup de chevauchements).
Utilisons l'ensemble de données diamonds
pour nous entraîner à traiter le cas d'un grand ensemble de données.
Cet exercice fait partie du cours
Introduction à la visualisation de données avec ggplot2
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Plot price vs. carat, colored by clarity
plt_price_vs_carat_by_clarity <- ggplot(diamonds, aes(carat, price, color = clarity))
# Add a point layer with tiny points
plt_price_vs_carat_by_clarity + ___