Değişkenleri yeniden kodlama ve grup toplamlarını hesaplama

tidyverse içindeki temel paketlerden biri olan dplyr, veri düzenleme için birçok işlev içerir. Bu sayede kullanıcılar veri kümelerini yeniden kodlayabilir, bu veri kümeleri içinde gruplar tanımlayabilir ve bu gruplar üzerinde hesaplamalar yapabilir. Bu tür işlemler genellikle %>% operatörüyle gösterilen bir pipe içinde gerçekleştirilir.

Bu egzersizde ACS verileriyle tam da böyle bir tidyverse iş akışında çalışacaksın. ACS tablosu B19001’de ortanca hane geliri değişkenlerinden $35.000’in altında; $35.000 ile $75.000 arasında; ve $75.000’in üstünde olanları belirleyeceksin. Ardından Washington’daki ilçeler (counties) için her gruba düşen hane sayısını tablolayacaksın.

Bu egzersiz, kursun bir parçasıdır

R ile ABD Nüfus Sayımı Verilerini Analiz Etme

Kursa Göz Atın

Egzersiz talimatları

Değişken "B19001_001" eşit olan satırları filtrele; bu, toplam hane sayısını temsil eder.
case_when() fonksiyonunu kullanarak incgroup adlı bir sütun oluştur; bu sütunu yeniden kodlanmış grupları tanımlamak için kullanacaksın.
Veri kümeni ilçe adı ve gelir grubuna göre gruplamak için group_by() fonksiyonunu kullan.
Son olarak, summarize() fonksiyonuyla ilçe bazında grup toplamlarını tablolayıp sonucu kontrol et.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Use a tidy workflow to wrangle ACS data
wa_grouped <- wa_income %>%
  ___(___ != "B19001_001") %>%
  mutate(incgroup = ___(
    variable < "B19001_008" ~ "below35k", 
    variable < "B19001_013" ~ "35kto75k", 
    TRUE ~ "above75k"
  )) %>%
  ___(NAME, incgroup) %>%
  ___(group_est = sum(estimate))

wa_grouped

Kodu Düzenle ve Çalıştır