Durak (stop) kelimeleri ve fazladan boşlukları kaldır
Bir metin korpusu genellikle "a", "an", "the", "of" ve "but" gibi pek çok yaygın kelime içerir. Doğal dil işlemeye göre bunlara stop (durak) kelimeleri denir.
Stop kelimeler, korpustaki daha önemli kelimelere odaklanıp içgörü elde edebilmek için metin işleme sırasında genellikle kaldırılır.
Ayrıca, özel karakterlerin, noktalamanın, sayıların ve stop kelimelerin kaldırılması sırasında oluşan fazladan boşlukların da korpustan temizlenmesi gerekir.
Son egzersizde oluşturduğun korpus twt_corpus_lwr olarak önceden yüklendi.
Bu egzersiz için tm kütüphanesi önceden yüklendi.
Bu egzersiz
R ile Sosyal Medya Verilerini Analiz Etme
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Remove English stop words from the corpus and view the corpus
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)