Değişkenleri orana göre birleştirme
Çoğu zaman, belirli düzeyleri "diğer" ile değiştirmek ya da birleştirmek istemezsin. Bunun yerine, en yaygın düzeyleri tutup geri kalan her şeyi "diğer" kategorisine koymak isteyebilirsin. Özellikle çok sayıda düzey olduğunda ve çoğu nadirken, bu yaklaşım verini görselleştirmek için çok yararlıdır. Bunu, Kaggle anketindeki insanların gelecek yıl denemek istedikleri Machine Learning yöntemleri sorusunu kullanarak deneyelim. multiple_choice_responses senin için yüklendi. Sayım yaparken, sort = TRUE varsayılan olarak azalan sırayı ifade eder, bunu unutma.
Bu egzersiz
Tidyverse'te Kategorik Veriler
kursunun bir parçasıdırEgzersiz talimatları
- Yöntem seçmeyen kişileri kaldır.
MLMethodNextYearSelectdeğişkeninden, yanıtlayanların en az %5'inin seçtiği başlıkları koruyan ve kalanları varsayılan değer olan "Other" içinde toplayan yeni birml_methoddeğişkeni oluştur.- Son olarak, yeni değişkenini azalan sırada olacak şekilde say.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
multiple_choice_responses %>%
# Remove NAs of MLMethodNextYearSelect
filter(___) %>%
# Create ml_method, which lumps all those with less than 5% of people into "Other"
mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
# Count the frequency of your new variable, sorted in descending order
___(___, ___)