Sözcük çağrışımı kullanma
Sözcük ilişkilerini düşünmenin bir başka yolu, tm paketindeki findAssocs() fonksiyonunu kullanmaktır. Verilen herhangi bir sözcük için findAssocs(), bir TDM veya DTM içindeki diğer tüm sözcüklerle olan korelasyonunu hesaplar. Puanlar 0 ile 1 arasında değişir. 1, iki sözcüğün belgelerde her zaman birlikte göründüğü; 0’a yaklaşan değerler ise terimlerin aynı belgede nadiren göründüğü anlamına gelir.
Unutma, findAssocs() hesaplaması belge düzeyinde yapılır. Yani söz konusu sözcüğü içeren her bir belge için, o belgelerdeki diğer terimler ilişkilendirilir. Arama terimini içermeyen belgeler dikkate alınmaz.
findAssocs() kullanmak için bir TDM veya DTM, arama terimi ve minimum korelasyon değeri geçir. Fonksiyon, minimum eşiği karşılayan veya aşan tüm diğer terimlerin bir listesini döndürür.
findAssocs(tdm, "word", 0.25)
Sözcük çeşitliliği nedeniyle minimum korelasyon değerleri genellikle görece düşüktür. 0.10 değerinin güçlü bir ikili terim ilişkisinin göstergesi olmasına şaşırma.
Kahve tweet’leri bu egzersiz için temizlenip tweets_tdm içinde düzenlendi. Bir terim çağrışımı arayacak, sonuçları qdap paketindeki list_vect2df() ile dönüştürecek ve örnek betikteki ggplot2 koduyla bir grafik oluşturacaksın.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
tweets_tdmüzerindefindAssocs()kullanarak, minimum eşik0.2olacak şekilde "venti" ile ilişkili terimleri bulupassociationsoluştur.- Konsola
associationsyazarak "venti" ile ilişkili terimleri görüntüle. list_vect2df()’yi çağırarak,associations’ı geçiripcol2’yi"word",col3’ü"score"olarak ayarlayarakassociations_dfoluştur.- Çağrışım değerlerinin nokta grafiğini oluşturmak için
ggplot2kodunu çalıştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create associations
___ <- ___(___, ___, ___)
# View the venti associations
___
# Create associations_df
___ <- ___(___, ___, ___)
# Plot the associations_df values
ggplot(associations_df, aes(score, word)) +
geom_point(size = 3) +
theme_gdocs()