Özellik çıkarımı ve analiz: amzn_cons
Şimdi bunu, başka bir ikili-sözcük TDM içinde amzn_cons_corp korpusu ile karşılaştırmaya karar veriyorsun. Elbette, kelime bulutunda bazı farklı ifadeler görmeyi bekliyorsun.
Görselleştirme için ikili-sözcük özelliklerini çıkarmak üzere yine bu özel fonksiyonu kullanacaksın:
tokenizer <- function(x)
NGramTokenizer(x, Weka_control(min = 2, max = 2))
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
amzn_cons_corp'u birTermDocumentMatrix'e dönüştürüp ikili-sözcük fonksiyonunu dahil ederekcontrol = list(tokenize = tokenizer)ileamzn_c_tdmoluştur.amzn_c_tdm'in matris sürümü olarakamzn_c_tdm_moluştur.- Terim frekanslarını elde etmek için
rowSums()kullanarakamzn_c_freqoluştur. names(amzn_c_freq)ve değerler olarakamzn_c_freqkullanarak birwordcloud()oluştur. Ayrıcamax.words = 25vecolor = "red"argümanlarını da kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Create amzn_c_tdm_m
___ <- ___
# Create amzn_c_freq
___ <- ___
# Plot a word cloud of negative Amazon bigrams
___