Kutuplaşmış etiket bulutu

Ortaklık bulutları, belgeler arasında paylaşılan kelimeleri gösterir. Ancak bu bulutlar, bu kelimelerin bir belgede diğerine kıyasla daha yaygın görünüp görünmediğini gösteremez. Bunun için bir piramit grafiğine ihtiyaç duyarsın; bunlar plotrix paketindeki pyramid.plot() ile üretilebilir.

Önce veriyi uygun bir biçime getirmek için biraz düzenleme gerekir. Bunu yapmanın en kolay yolu, veriyi bir veri çerçevesine dönüştürüp dplyr kullanmaktır. as.matrix(tdm) ile oluşturulan bir kelime sayım matrisi verildiğinde, sonunda üç sütunlu bir veri çerçevesi elde etmen gerekir:

Her belgede yer alan kelimeler.
1. belgedeki bu kelimelerin sayıları.
2. belgedeki bu kelimelerin sayıları.

Ardından pyramid.plot() şu şekilde kullanılır:

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Grafiğin görsel görünümünü iyileştirmek için bazı ek argümanlar vardır.

Şimdi chardonnay tweet'lerinde yaygın ama coffee tweet'lerinde nadir olan kelimeleri keşfedeceksin. all_dtm_m senin için oluşturuldu.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))

Kodu Düzenle ve Çalıştır