Variablen neu kodieren und Gruppensummen berechnen

dplyr, eines der Kernpakete im tidyverse, enthält zahlreiche Funktionen für Data-Wrangling. Diese Funktionen ermöglichen es, Datensätze neu zu kodieren, Gruppen innerhalb dieser Datensätze zu definieren und Berechnungen über diese Gruppen hinweg auszuführen. Solche Operationen erfolgen häufig in einer Pipe, gekennzeichnet durch den Operator %>%.

In dieser Übung arbeitest du mit ACS-Daten genau in so einem tidyverse-Workflow. Du identifizierst Variablen zum Medianeinkommen von Haushalten in der ACS-Tabelle B19001, die unter 35.000 \(, zwischen 35.000 \) und 75.000 \( sowie über 75.000 \) liegen. Anschließend zählst du die Anzahl der Haushalte, die in jede Gruppe fallen, für die Countys in Washington.

Diese Übung ist Teil des Kurses

<Kurs>US-Census-Daten in R analysieren</Kurs>

Kurs ansehen

Übungsanweisungen

Filtere Zeilen heraus, in denen die Variable "B19001_001" ist, da dies die Gesamtzahl der Haushalte darstellt.
Verwende die Funktion case_when(), um eine Spalte namens incgroup zu erzeugen, mit der du die neu kodierten Gruppen definierst.
Verwende group_by(), um deinen Datensatz nach County-Name und Einkommensgruppe zu gruppieren.
Verwende schließlich summarize(), um die Gruppensummen je County zu tabellieren, und prüfe dann das Ergebnis.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Use a tidy workflow to wrangle ACS data
wa_grouped <- wa_income %>%
  ___(___ != "B19001_001") %>%
  mutate(incgroup = ___(
    variable < "B19001_008" ~ "below35k", 
    variable < "B19001_013" ~ "35kto75k", 
    TRUE ~ "above75k"
  )) %>%
  ___(NAME, incgroup) %>%
  ___(group_est = sum(estimate))

wa_grouped

Code bearbeiten und ausführen