BaşlayınÜcretsiz Başlayın

Durak (stop) kelimeleri ve fazladan boşlukları kaldır

Bir metin korpusu genellikle "a", "an", "the", "of" ve "but" gibi pek çok yaygın kelime içerir. Doğal dil işlemeye göre bunlara stop (durak) kelimeleri denir.

Stop kelimeler, korpustaki daha önemli kelimelere odaklanıp içgörü elde edebilmek için metin işleme sırasında genellikle kaldırılır.

Ayrıca, özel karakterlerin, noktalamanın, sayıların ve stop kelimelerin kaldırılması sırasında oluşan fazladan boşlukların da korpustan temizlenmesi gerekir.

Son egzersizde oluşturduğun korpus twt_corpus_lwr olarak önceden yüklendi.

Bu egzersiz için tm kütüphanesi önceden yüklendi.

Bu egzersiz

R ile Sosyal Medya Verilerini Analiz Etme

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Remove English stop words from the corpus and view the corpus 
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)
Kodu Düzenle ve Çalıştır