Kutuplaşmış etiket bulutu
Ortaklık bulutları, belgeler arasında paylaşılan kelimeleri gösterir. Ancak bu bulutlar, bu kelimelerin bir belgede diğerine kıyasla daha yaygın görünüp görünmediğini gösteremez. Bunun için bir piramit grafiğine ihtiyaç duyarsın; bunlar plotrix paketindeki pyramid.plot() ile üretilebilir.
Önce veriyi uygun bir biçime getirmek için biraz düzenleme gerekir. Bunu yapmanın en kolay yolu, veriyi bir veri çerçevesine dönüştürüp dplyr kullanmaktır. as.matrix(tdm) ile oluşturulan bir kelime sayım matrisi verildiğinde, sonunda üç sütunlu bir veri çerçevesi elde etmen gerekir:
- Her belgede yer alan kelimeler.
- 1. belgedeki bu kelimelerin sayıları.
- 2. belgedeki bu kelimelerin sayıları.
Ardından pyramid.plot() şu şekilde kullanılır:
pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)
Grafiğin görsel görünümünü iyileştirmek için bazı ek argümanlar vardır.
Şimdi chardonnay tweet'lerinde yaygın ama coffee tweet'lerinde nadir olan kelimeleri keşfedeceksin. all_dtm_m senin için oluşturuldu.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
top25_df <- all_tdm_m %>%
# Convert to data frame
as_tibble(rownames = "___") %>%
# Keep rows where word appears everywhere
filter(if_all(everything(), ___) %>%
# Get difference in counts
mutate(difference = ___) %>%
# Keep rows with biggest difference
slice_max(___, n = ___) %>%
# Arrange by descending difference
arrange(___(___))