tm ile sık geçen terimler
Artık bir terim-belge matrisi ve onun transpozu olan belge-terim matrisini nasıl oluşturacağını bildiğine göre, bunu bazı analizlerin temeli olarak kullanacağız. Analiz edebilmek için, tıpkı bölüm 1'de as.matrix() kullanarak yaptığımız gibi, bunu basit bir matrise çevirmemiz gerekiyor.
Yeni oluşturduğun matriste rowSums() çağırmak, bir metin parçasında kullanılan tüm terimleri toplar. rowSums() değerlerine sahip olduktan sonra, en yaygın terimlere odaklanabilmek için decreasing = TRUE ile sort() edebilirsin.
Son olarak, aşağıdaki kodla term_frequency değişkenindeki ilk 5 terimin bir barplot()unu oluşturabilirsin.
barplot(term_frequency[1:5], col = "#C0DE25")
Elbette, grafiği daha da özelleştirmeyi öğrenmek için ggplot2 kurslarımızı da alabilirsin… :)
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
- Son bölümdeki terim-belge matrisi
coffee_tdm'yi kullanarakcoffee_m'yi bir matris olarak oluştur. coffee_müzerinderowSums()fonksiyonunu kullanarakterm_frequency'yi oluştur.term_frequency'yi azalan düzende sırala ve sonucuterm_frequency'ye kaydet.- Tek köşeli parantezle alt kümeleme (yani sadece bir
[kullanarak) yapıpterm_frequency'den en üst 10 terimi yazdır. - En üst 10 terimin bir çubuk grafiğini (barplot) oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)