Değişkenleri yeniden kodlama ve grup toplamlarını hesaplama
tidyverse içindeki temel paketlerden biri olan dplyr, veri düzenleme için birçok işlev içerir. Bu sayede kullanıcılar veri kümelerini yeniden kodlayabilir, bu veri kümeleri içinde gruplar tanımlayabilir ve bu gruplar üzerinde hesaplamalar yapabilir. Bu tür işlemler genellikle %>% operatörüyle gösterilen bir pipe içinde gerçekleştirilir.
Bu egzersizde ACS verileriyle tam da böyle bir tidyverse iş akışında çalışacaksın. ACS tablosu B19001’de ortanca hane geliri değişkenlerinden $35.000’in altında; $35.000 ile $75.000 arasında; ve $75.000’in üstünde olanları belirleyeceksin. Ardından Washington’daki ilçeler (counties) için her gruba düşen hane sayısını tablolayacaksın.
Bu egzersiz
R ile ABD Nüfus Sayımı Verilerini Analiz Etme
kursunun bir parçasıdırEgzersiz talimatları
- Değişken
"B19001_001"eşit olan satırları filtrele; bu, toplam hane sayısını temsil eder. case_when()fonksiyonunu kullanarakincgroupadlı bir sütun oluştur; bu sütunu yeniden kodlanmış grupları tanımlamak için kullanacaksın.- Veri kümeni ilçe adı ve gelir grubuna göre gruplamak için
group_by()fonksiyonunu kullan. - Son olarak,
summarize()fonksiyonuyla ilçe bazında grup toplamlarını tablolayıp sonucu kontrol et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Use a tidy workflow to wrangle ACS data
wa_grouped <- wa_income %>%
___(___ != "B19001_001") %>%
mutate(incgroup = ___(
variable < "B19001_008" ~ "below35k",
variable < "B19001_013" ~ "35kto75k",
TRUE ~ "above75k"
)) %>%
___(NAME, incgroup) %>%
___(group_est = sum(estimate))
wa_grouped