Özellik çıkarımı ve analiz: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp ve goog_cons_corp önceden işlenmiş durumda; artık incelemek istediğin özellikleri çıkarabilirsin. Bag-of-words yaklaşımını kullandığın için, Amazon'un olumlu değerlendirmeler derlemi amzn_pros_corp için bir bigram TermDocumentMatrix oluşturmayı seçiyorsun. Buradan, insanların Amazon'da çalışmayı olumlu olarak hangi ifadelerle ilişkilendirdiğini anlamak için hızlıca bir wordcloud() oluşturabilirsin.

Aşağıdaki fonksiyon, iki terimi tokenleştirmek için RWeka kullanır ve bu egzersizde arka planda kullanılır.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

amzn_p_tdm'i, amzn_pros_corp'tan bir TermDocumentMatrix olarak oluştur. Terimlerin bigram olması için control = list(tokenize = tokenizer) eklediğinden emin ol.
as.matrix() fonksiyonunu kullanarak amzn_p_tdm'den amzn_p_tdm_m oluştur.
amzn_p_tdm_m'den terim frekanslarını elde etmek için amzn_p_freq oluştur.
names(amzn_p_freq)'i kelimeler, amzn_p_freq'i frekanslar olarak kullanarak ve görsellik için max.words = 25 ve color = "blue" ayarlarıyla bir wordcloud() oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Kodu Düzenle ve Çalıştır