BaşlayınÜcretsiz Başlayın

Özellik çıkarımı ve analiz: amzn_cons

Şimdi bunu, başka bir ikili-sözcük TDM içinde amzn_cons_corp korpusu ile karşılaştırmaya karar veriyorsun. Elbette, kelime bulutunda bazı farklı ifadeler görmeyi bekliyorsun.

Görselleştirme için ikili-sözcük özelliklerini çıkarmak üzere yine bu özel fonksiyonu kullanacaksın:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • amzn_cons_corp'u bir TermDocumentMatrix'e dönüştürüp ikili-sözcük fonksiyonunu dahil ederek control = list(tokenize = tokenizer) ile amzn_c_tdm oluştur.
  • amzn_c_tdm'in matris sürümü olarak amzn_c_tdm_m oluştur.
  • Terim frekanslarını elde etmek için rowSums() kullanarak amzn_c_freq oluştur.
  • names(amzn_c_freq) ve değerler olarak amzn_c_freq kullanarak bir wordcloud() oluştur. Ayrıca max.words = 25 ve color = "red" argümanlarını da kullan.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___
Kodu Düzenle ve Çalıştır