Calculer des mesures de dispersion
Étendons la puissante syntaxe group_by() et summarize() aux mesures de dispersion. Si vous n’êtes pas sûr·e de travailler avec des distributions symétriques ou asymétriques, il est judicieux d’ajouter une mesure robuste comme l’IQR en plus des mesures classiques de variance ou d’écart-type.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
Le jeu de données gap2007 que vous avez créé dans un exercice précédent est disponible dans votre espace de travail.
- Pour chaque continent dans
gap2007, résumez les espérances de vie en utilisantsd(),IQR()et le décompte des pays,n(). Inutile de nommer ici les nouvelles colonnes produites. La fonctionn()dans votre appel àsummarize()ne prend aucun argument. - Comparez graphiquement la dispersion de ces distributions en construisant des tracés de densité superposés de l’espérance de vie, ventilés par continent.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Compute groupwise measures of spread
gap2007 %>%
group_by(___) %>%
summarize(___,
___,
___)
# Generate overlaid density plots
gap2007 %>%
ggplot(aes(x = ___, fill = ___)) +
geom_density(alpha = 0.3)