Sözcük ilişkilendirme
Beklendiği gibi, dendrogram boyunca benzer konular görüyorsun. Pozitif yorumlara geri dönerek, kelime bulutlarında çıkan üst ifadeleri incelemeye karar veriyorsun. tm paketindeki findAssocs() fonksiyonunu kullanarak ilişkili terimler bulmayı umuyorsun. Uzun çalışma saatleri ve iş-yaşam dengesinin eksikliği hakkında öğrendiklerinden sonra şimdi şaşırtıcı bir şey olup olmadığını kontrol etmek istiyorsun.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
amzn_pros_corp gövdesi daha önceki gibi özel fonksiyonlarla temizlendi.
amzn_pros_corpvecontrol = list(tokenize = tokenizer)kullanarakamzn_p_tdmadlı bir TDM oluştur.amzn_p_tdm'yi matrise dönüştürerekamzn_p_moluştur.amzn_p_müzerinderowSums()uygulayarakamzn_p_freqoluştur.amzn_p_freqüzerindesort()kullanıpdecreasing = TRUEargümanını vererekterm_frequencyoluştur.term_frequency[1:5]ile ilk 5 bigramı incele.- "fast paced" terimini en üstte görmen seni şaşırtabilir; çünkü bu, "long hours" ile ilişkili olabilecek olumsuz bir ifade olabilir. "fast paced" ile en çok ilişkili terimlere bak.
amzn_p_tdmüzerindefindAssocs()kullanarak"fast paced"ifadesini0.2eşik değeriyle incele.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___