Recode des variables et calcul des sommes par groupe
dplyr, l’un des packages clés du tidyverse, propose de nombreuses fonctions pour la préparation et la transformation de données. Cette boîte à outils permet de recoder des jeux de données, de définir des groupes au sein de ces jeux, puis d’effectuer des calculs par groupe. Ces opérations s’enchaînent généralement au sein d’un pipe, matérialisé par l’opérateur %>%.
Dans cet exercice, vous allez travailler sur des données de l’ACS en suivant ce flux de travail tidyverse. Vous identifierez les variables de revenu médian des ménages dans la table ACS B19001 qui sont inférieures à 35 000 \(, comprises entre 35 000 \) et 75 000 \(, et supérieures à 75 000 \). Vous dresserez ensuite un tableau du nombre de ménages appartenant à chaque groupe pour les comtés de l’État de Washington.
Cet exercice fait partie du cours
Analyser les données du recensement américain avec R
Instructions
- Filtrez les lignes où la variable est égale à
"B19001_001", car cela représente le nombre total de ménages. - Utilisez la fonction
case_when()pour créer une colonne nomméeincgroup, que vous utiliserez pour définir les groupes recodés. - Utilisez la fonction
group_by()pour regrouper votre jeu de données par nom de comté et par groupe de revenu. - Enfin, utilisez la fonction
summarize()pour totaliser les sommes par groupe et par comté, puis vérifiez le résultat.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Use a tidy workflow to wrangle ACS data
wa_grouped <- wa_income %>%
___(___ != "B19001_001") %>%
mutate(incgroup = ___(
variable < "B19001_008" ~ "below35k",
variable < "B19001_013" ~ "35kto75k",
TRUE ~ "above75k"
)) %>%
___(NAME, incgroup) %>%
___(group_est = sum(estimate))
wa_grouped