qdap ile sık geçen terimler

Ön işleme adımlarının tüm kontrolünü elinden bırakmayı sorun etmiyorsan, sık geçen terimleri hızlıca elde etmenin bir yolu qdap paketindeki freq_terms() fonksiyonunu kullanmaktır.

Fonksiyon bir metin değişkeni alır; bizim örneğimizde bu, tweets$text vektörüdür. Görüntülenecek en üst terim sayısını top argümanıyla, kaldırılacak durak sözcükleri bir vektör olarak stopwords argümanıyla ve dahil edilecek sözcüklerin asgari karakter uzunluğunu at.least argümanıyla belirtebilirsin. qdap, tm paketindekilerden farklı kendi durak sözcük listesine sahiptir. Bu egzersizde her ikisini de nasıl kullanacağını görecek ve sonuçlarını karşılaştıracaksın.

Sonuçların basit bir görselleştirmesini yapmak kolay. freq_terms() nesnesi üzerinde plot() çağırman yeterli.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create frequency
frequency <- ___(
  ___, 
  top = ___, 
  at.least = ___, 
  stopwords = ___
)

# Make a frequency bar chart

Kodu Düzenle ve Çalıştır