Recode des variables et calcul des sommes par groupe

dplyr, l’un des packages clés du tidyverse, propose de nombreuses fonctions pour la préparation et la transformation de données. Cette boîte à outils permet de recoder des jeux de données, de définir des groupes au sein de ces jeux, puis d’effectuer des calculs par groupe. Ces opérations s’enchaînent généralement au sein d’un pipe, matérialisé par l’opérateur %>%.

Dans cet exercice, vous allez travailler sur des données de l’ACS en suivant ce flux de travail tidyverse. Vous identifierez les variables de revenu médian des ménages dans la table ACS B19001 qui sont inférieures à 35 000 \(, comprises entre 35 000 \) et 75 000 \(, et supérieures à 75 000 \). Vous dresserez ensuite un tableau du nombre de ménages appartenant à chaque groupe pour les comtés de l’État de Washington.

Cet exercice fait partie du cours

<cours>Analyser les données du recensement américain avec R</cours>

Voir le cours

Instructions de l’exercice

Filtrez les lignes où la variable est égale à "B19001_001", car cela représente le nombre total de ménages.
Utilisez la fonction case_when() pour créer une colonne nommée incgroup, que vous utiliserez pour définir les groupes recodés.
Utilisez la fonction group_by() pour regrouper votre jeu de données par nom de comté et par groupe de revenu.
Enfin, utilisez la fonction summarize() pour totaliser les sommes par groupe et par comté, puis vérifiez le résultat.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Use a tidy workflow to wrangle ACS data
wa_grouped <- wa_income %>%
  ___(___ != "B19001_001") %>%
  mutate(incgroup = ___(
    variable < "B19001_008" ~ "below35k", 
    variable < "B19001_013" ~ "35kto75k", 
    TRUE ~ "above75k"
  )) %>%
  ___(NAME, incgroup) %>%
  ___(group_est = sum(estimate))

wa_grouped

Modifier et exécuter le code