Değişkenleri yeniden kodlama ve grup toplamlarını hesaplama
tidyverse içindeki temel paketlerden biri olan dplyr, veri düzenleme için birçok işlev içerir. Bu sayede kullanıcılar veri kümelerini yeniden kodlayabilir, bu veri kümeleri içinde gruplar tanımlayabilir ve bu gruplar üzerinde hesaplamalar yapabilir. Bu tür işlemler genellikle %>% operatörüyle gösterilen bir pipe içinde gerçekleştirilir.
Bu egzersizde ACS verileriyle tam da böyle bir tidyverse iş akışında çalışacaksın. ACS tablosu B19001’de ortanca hane geliri değişkenlerinden $35.000’in altında; $35.000 ile $75.000 arasında; ve $75.000’in üstünde olanları belirleyeceksin. Ardından Washington’daki ilçeler (counties) için her gruba düşen hane sayısını tablolayacaksın.
Bu egzersiz, kursun bir parçasıdır
R ile ABD Nüfus Sayımı Verilerini Analiz Etme
Egzersiz talimatları
- Değişken
"B19001_001"eşit olan satırları filtrele; bu, toplam hane sayısını temsil eder. case_when()fonksiyonunu kullanarakincgroupadlı bir sütun oluştur; bu sütunu yeniden kodlanmış grupları tanımlamak için kullanacaksın.- Veri kümeni ilçe adı ve gelir grubuna göre gruplamak için
group_by()fonksiyonunu kullan. - Son olarak,
summarize()fonksiyonuyla ilçe bazında grup toplamlarını tablolayıp sonucu kontrol et.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Use a tidy workflow to wrangle ACS data
wa_grouped <- wa_income %>%
___(___ != "B19001_001") %>%
mutate(incgroup = ___(
variable < "B19001_008" ~ "below35k",
variable < "B19001_013" ~ "35kto75k",
TRUE ~ "above75k"
)) %>%
___(NAME, incgroup) %>%
___(group_est = sum(estimate))
wa_grouped