Calculer des mesures de tendance centrale
Dans ce chapitre, vous utiliserez les données de gapminder, qui suivent l’évolution démographique des pays du monde dans le temps. Pour en savoir plus, affichez l’aide avec ?gapminder.
Pour cet exercice, concentrez-vous sur les différences d’espérance de vie entre les continents. Il faut donc mener l’analyse non pas au niveau des pays, mais en agrégeant au niveau des continents. Cela est rendu possible par la combinaison group_by() puis summarize(), une syntaxe très puissante pour appliquer la même analyse à différents sous-ensembles d’un jeu de données.
Cet exercice fait partie du cours
Analyse exploratoire des données en R
Instructions
- Créez un jeu de données appelé
gap2007qui ne contient que les données de l’année 2007. - À partir de
gap2007, calculez la moyenne et la médiane de l’espérance de vie pour chaque continent. Ne vous préoccupez pas de nommer les nouvelles colonnes produites parsummarize(). - Confirmez les tendances observées dans les médianes en générant des boîtes à moustaches côte à côte de l’espérance de vie pour chaque continent.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create dataset of 2007 data
gap2007 <- filter(___, ___)
# Compute groupwise mean and median lifeExp
gap2007 %>%
group_by(___) %>%
summarize(___,
___)
# Generate box plots of lifeExp for each continent
gap2007 %>%
ggplot(aes(x = ___, y = ___)) +
___