BaşlayınÜcretsiz Başlayın

Değişkenleri orana göre birleştirme

Çoğu zaman, belirli düzeyleri "diğer" ile değiştirmek ya da birleştirmek istemezsin. Bunun yerine, en yaygın düzeyleri tutup geri kalan her şeyi "diğer" kategorisine koymak isteyebilirsin. Özellikle çok sayıda düzey olduğunda ve çoğu nadirken, bu yaklaşım verini görselleştirmek için çok yararlıdır. Bunu, Kaggle anketindeki insanların gelecek yıl denemek istedikleri Machine Learning yöntemleri sorusunu kullanarak deneyelim. multiple_choice_responses senin için yüklendi. Sayım yaparken, sort = TRUE varsayılan olarak azalan sırayı ifade eder, bunu unutma.

Bu egzersiz

Tidyverse'te Kategorik Veriler

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Yöntem seçmeyen kişileri kaldır.
  • MLMethodNextYearSelect değişkeninden, yanıtlayanların en az %5'inin seçtiği başlıkları koruyan ve kalanları varsayılan değer olan "Other" içinde toplayan yeni bir ml_method değişkeni oluştur.
  • Son olarak, yeni değişkenini azalan sırada olacak şekilde say.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)
Kodu Düzenle ve Çalıştır