Variablen neu kodieren und Gruppensummen berechnen
dplyr, eines der Kernpakete im tidyverse, enthält zahlreiche Funktionen für Data-Wrangling. Diese Funktionen ermöglichen es, Datensätze neu zu kodieren, Gruppen innerhalb dieser Datensätze zu definieren und Berechnungen über diese Gruppen hinweg auszuführen. Solche Operationen erfolgen häufig in einer Pipe, gekennzeichnet durch den Operator %>%.
In dieser Übung arbeitest du mit ACS-Daten genau in so einem tidyverse-Workflow. Du identifizierst Variablen zum Medianeinkommen von Haushalten in der ACS-Tabelle B19001, die unter 35.000 \(, zwischen 35.000 \) und 75.000 \( sowie über 75.000 \) liegen. Anschließend zählst du die Anzahl der Haushalte, die in jede Gruppe fallen, für die Countys in Washington.
Diese Übung ist Teil des Kurses
US-Census-Daten in R analysieren
Anleitung zur Übung
- Filtere Zeilen heraus, in denen die Variable
"B19001_001"ist, da dies die Gesamtzahl der Haushalte darstellt. - Verwende die Funktion
case_when(), um eine Spalte namensincgroupzu erzeugen, mit der du die neu kodierten Gruppen definierst. - Verwende
group_by(), um deinen Datensatz nach County-Name und Einkommensgruppe zu gruppieren. - Verwende schließlich
summarize(), um die Gruppensummen je County zu tabellieren, und prüfe dann das Ergebnis.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Use a tidy workflow to wrangle ACS data
wa_grouped <- wa_income %>%
___(___ != "B19001_001") %>%
mutate(incgroup = ___(
variable < "B19001_008" ~ "below35k",
variable < "B19001_013" ~ "35kto75k",
TRUE ~ "above75k"
)) %>%
___(NAME, incgroup) %>%
___(group_est = sum(estimate))
wa_grouped