BaşlayınÜcretsiz Başlayın

tm ile sık geçen terimler

Artık bir terim-belge matrisi ve onun transpozu olan belge-terim matrisini nasıl oluşturacağını bildiğine göre, bunu bazı analizlerin temeli olarak kullanacağız. Analiz edebilmek için, tıpkı bölüm 1'de as.matrix() kullanarak yaptığımız gibi, bunu basit bir matrise çevirmemiz gerekiyor.

Yeni oluşturduğun matriste rowSums() çağırmak, bir metin parçasında kullanılan tüm terimleri toplar. rowSums() değerlerine sahip olduktan sonra, en yaygın terimlere odaklanabilmek için decreasing = TRUE ile sort() edebilirsin.

Son olarak, aşağıdaki kodla term_frequency değişkenindeki ilk 5 terimin bir barplot()unu oluşturabilirsin.

barplot(term_frequency[1:5], col = "#C0DE25")

Elbette, grafiği daha da özelleştirmeyi öğrenmek için ggplot2 kurslarımızı da alabilirsin… :)

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Son bölümdeki terim-belge matrisi coffee_tdm'yi kullanarak coffee_m'yi bir matris olarak oluştur.
  • coffee_m üzerinde rowSums() fonksiyonunu kullanarak term_frequency'yi oluştur.
  • term_frequency'yi azalan düzende sırala ve sonucu term_frequency'ye kaydet.
  • Tek köşeli parantezle alt kümeleme (yani sadece bir [ kullanarak) yapıp term_frequency'den en üst 10 terimi yazdır.
  • En üst 10 terimin bir çubuk grafiğini (barplot) oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)
Kodu Düzenle ve Çalıştır