BaşlayınÜcretsiz Başlayın

Sözcük çağrışımı kullanma

Sözcük ilişkilerini düşünmenin bir başka yolu, tm paketindeki findAssocs() fonksiyonunu kullanmaktır. Verilen herhangi bir sözcük için findAssocs(), bir TDM veya DTM içindeki diğer tüm sözcüklerle olan korelasyonunu hesaplar. Puanlar 0 ile 1 arasında değişir. 1, iki sözcüğün belgelerde her zaman birlikte göründüğü; 0’a yaklaşan değerler ise terimlerin aynı belgede nadiren göründüğü anlamına gelir.

Unutma, findAssocs() hesaplaması belge düzeyinde yapılır. Yani söz konusu sözcüğü içeren her bir belge için, o belgelerdeki diğer terimler ilişkilendirilir. Arama terimini içermeyen belgeler dikkate alınmaz.

findAssocs() kullanmak için bir TDM veya DTM, arama terimi ve minimum korelasyon değeri geçir. Fonksiyon, minimum eşiği karşılayan veya aşan tüm diğer terimlerin bir listesini döndürür.

findAssocs(tdm, "word", 0.25)

Sözcük çeşitliliği nedeniyle minimum korelasyon değerleri genellikle görece düşüktür. 0.10 değerinin güçlü bir ikili terim ilişkisinin göstergesi olmasına şaşırma.

Kahve tweet’leri bu egzersiz için temizlenip tweets_tdm içinde düzenlendi. Bir terim çağrışımı arayacak, sonuçları qdap paketindeki list_vect2df() ile dönüştürecek ve örnek betikteki ggplot2 koduyla bir grafik oluşturacaksın.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • tweets_tdm üzerinde findAssocs() kullanarak, minimum eşik 0.2 olacak şekilde "venti" ile ilişkili terimleri bulup associations oluştur.
  • Konsola associations yazarak "venti" ile ilişkili terimleri görüntüle.
  • list_vect2df()’yi çağırarak, associations’ı geçirip col2’yi "word", col3’ü "score" olarak ayarlayarak associations_df oluştur.
  • Çağrışım değerlerinin nokta grafiğini oluşturmak için ggplot2 kodunu çalıştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create associations
___ <- ___(___, ___, ___)

# View the venti associations
___

# Create associations_df
___ <- ___(___, ___, ___)

# Plot the associations_df values
ggplot(associations_df, aes(score, word)) + 
  geom_point(size = 3) + 
  theme_gdocs()
Kodu Düzenle ve Çalıştır