qdap ile sık geçen terimler
Ön işleme adımlarının tüm kontrolünü elinden bırakmayı sorun etmiyorsan, sık geçen terimleri hızlıca elde etmenin bir yolu qdap paketindeki freq_terms() fonksiyonunu kullanmaktır.
Fonksiyon bir metin değişkeni alır; bizim örneğimizde bu, tweets$text vektörüdür. Görüntülenecek en üst terim sayısını top argümanıyla, kaldırılacak durak sözcükleri bir vektör olarak stopwords argümanıyla ve dahil edilecek sözcüklerin asgari karakter uzunluğunu at.least argümanıyla belirtebilirsin. qdap, tm paketindekilerden farklı kendi durak sözcük listesine sahiptir. Bu egzersizde her ikisini de nasıl kullanacağını görecek ve sonuçlarını karşılaştıracaksın.
Sonuçların basit bir görselleştirmesini yapmak kolay. freq_terms() nesnesi üzerinde plot() çağırman yeterli.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create frequency
frequency <- ___(
___,
top = ___,
at.least = ___,
stopwords = ___
)
# Make a frequency bar chart