BaşlayınÜcretsiz başlayın

Değişkenleri orana göre birleştirme

Çoğu zaman, belirli düzeyleri "diğer" ile değiştirmek ya da birleştirmek istemezsin. Bunun yerine, en yaygın düzeyleri tutup geri kalan her şeyi "diğer" kategorisine koymak isteyebilirsin. Özellikle çok sayıda düzey olduğunda ve çoğu nadirken, bu yaklaşım verini görselleştirmek için çok yararlıdır. Bunu, Kaggle anketindeki insanların gelecek yıl denemek istedikleri Machine Learning yöntemleri sorusunu kullanarak deneyelim. multiple_choice_responses senin için yüklendi. Sayım yaparken, sort = TRUE varsayılan olarak azalan sırayı ifade eder, bunu unutma.

Bu egzersiz, kursun bir parçasıdır

Tidyverse'te Kategorik Veriler

Kursa Göz Atın

Egzersiz talimatları

  • Yöntem seçmeyen kişileri kaldır.
  • MLMethodNextYearSelect değişkeninden, yanıtlayanların en az %5'inin seçtiği başlıkları koruyan ve kalanları varsayılan değer olan "Other" içinde toplayan yeni bir ml_method değişkeni oluştur.
  • Son olarak, yeni değişkenini azalan sırada olacak şekilde say.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

multiple_choice_responses %>%
  # Remove NAs of MLMethodNextYearSelect
  filter(___) %>%
  # Create ml_method, which lumps all those with less than 5% of people into "Other"
  mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
  # Count the frequency of your new variable, sorted in descending order
  ___(___, ___)
Kodu Düzenle ve Çalıştır