Sözcük ilişkilendirme

Beklendiği gibi, dendrogram boyunca benzer konular görüyorsun. Pozitif yorumlara geri dönerek, kelime bulutlarında çıkan üst ifadeleri incelemeye karar veriyorsun. tm paketindeki findAssocs() fonksiyonunu kullanarak ilişkili terimler bulmayı umuyorsun. Uzun çalışma saatleri ve iş-yaşam dengesinin eksikliği hakkında öğrendiklerinden sonra şimdi şaşırtıcı bir şey olup olmadığını kontrol etmek istiyorsun.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

amzn_pros_corp gövdesi daha önceki gibi özel fonksiyonlarla temizlendi.

amzn_pros_corp ve control = list(tokenize = tokenizer) kullanarak amzn_p_tdm adlı bir TDM oluştur.
amzn_p_tdm'yi matrise dönüştürerek amzn_p_m oluştur.
amzn_p_m üzerinde rowSums() uygulayarak amzn_p_freq oluştur.
amzn_p_freq üzerinde sort() kullanıp decreasing = TRUE argümanını vererek term_frequency oluştur.
term_frequency[1:5] ile ilk 5 bigramı incele.
"fast paced" terimini en üstte görmen seni şaşırtabilir; çünkü bu, "long hours" ile ilişkili olabilecek olumsuz bir ifade olabilir. "fast paced" ile en çok ilişkili terimlere bak. amzn_p_tdm üzerinde findAssocs() kullanarak "fast paced" ifadesini 0.2 eşik değeriyle incele.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___

Kodu Düzenle ve Çalıştır