Özellik çıkarımı ve analiz: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp ve goog_cons_corp önceden işlenmiş durumda; artık incelemek istediğin özellikleri çıkarabilirsin. Bag-of-words yaklaşımını kullandığın için, Amazon'un olumlu değerlendirmeler derlemi amzn_pros_corp için bir bigram TermDocumentMatrix oluşturmayı seçiyorsun. Buradan, insanların Amazon'da çalışmayı olumlu olarak hangi ifadelerle ilişkilendirdiğini anlamak için hızlıca bir wordcloud() oluşturabilirsin.
Aşağıdaki fonksiyon, iki terimi tokenleştirmek için RWeka kullanır ve bu egzersizde arka planda kullanılır.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
amzn_p_tdm'i,amzn_pros_corp'tan birTermDocumentMatrixolarak oluştur. Terimlerin bigram olması içincontrol = list(tokenize = tokenizer)eklediğinden emin ol.as.matrix()fonksiyonunu kullanarakamzn_p_tdm'denamzn_p_tdm_moluştur.amzn_p_tdm_m'den terim frekanslarını elde etmek içinamzn_p_freqoluştur.names(amzn_p_freq)'i kelimeler,amzn_p_freq'i frekanslar olarak kullanarak ve görsellik içinmax.words = 25vecolor = "blue"ayarlarıyla birwordcloud()oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)