Durak (stop) kelimeleri ve fazladan boşlukları kaldır
Bir metin korpusu genellikle "a", "an", "the", "of" ve "but" gibi pek çok yaygın kelime içerir. Doğal dil işlemeye göre bunlara stop (durak) kelimeleri denir.
Stop kelimeler, korpustaki daha önemli kelimelere odaklanıp içgörü elde edebilmek için metin işleme sırasında genellikle kaldırılır.
Ayrıca, özel karakterlerin, noktalamanın, sayıların ve stop kelimelerin kaldırılması sırasında oluşan fazladan boşlukların da korpustan temizlenmesi gerekir.
Son egzersizde oluşturduğun korpus twt_corpus_lwr olarak önceden yüklendi.
Bu egzersiz için tm kütüphanesi önceden yüklendi.
Bu egzersiz, kursun bir parçasıdır
R ile Sosyal Medya Verilerini Analiz Etme
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Remove English stop words from the corpus and view the corpus
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)