BaşlayınÜcretsiz Başlayın

Özellik çıkarımı ve analiz: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp ve goog_cons_corp önceden işlenmiş durumda; artık incelemek istediğin özellikleri çıkarabilirsin. Bag-of-words yaklaşımını kullandığın için, Amazon'un olumlu değerlendirmeler derlemi amzn_pros_corp için bir bigram TermDocumentMatrix oluşturmayı seçiyorsun. Buradan, insanların Amazon'da çalışmayı olumlu olarak hangi ifadelerle ilişkilendirdiğini anlamak için hızlıca bir wordcloud() oluşturabilirsin.

Aşağıdaki fonksiyon, iki terimi tokenleştirmek için RWeka kullanır ve bu egzersizde arka planda kullanılır.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • amzn_p_tdm'i, amzn_pros_corp'tan bir TermDocumentMatrix olarak oluştur. Terimlerin bigram olması için control = list(tokenize = tokenizer) eklediğinden emin ol.
  • as.matrix() fonksiyonunu kullanarak amzn_p_tdm'den amzn_p_tdm_m oluştur.
  • amzn_p_tdm_m'den terim frekanslarını elde etmek için amzn_p_freq oluştur.
  • names(amzn_p_freq)'i kelimeler, amzn_p_freq'i frekanslar olarak kullanarak ve görsellik için max.words = 25 ve color = "blue" ayarlarıyla bir wordcloud() oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)
Kodu Düzenle ve Çalıştır