Durak sözcükler hakkında her şey
Bazı sözcükler sık geçer ama çok az bilgi taşır. Bunlara durak sözcükler (stop words) denir ve analizinden çıkarmak isteyebilirsin. Yaygın İngilizce durak sözcüklerden bazıları "I", "she'll", "the" vb.dir. tm paketinde 174 yaygın İngilizce durak sözcük vardır (bu egzersizde onları yazdıracaksın!)
Bir analiz yaparken bu listeye muhtemelen ekleme yapman gerekir. Kahve tweeti örneğimizde tüm tweet'lerde "coffee" geçtiği için, yaygın durak sözcüklere ek olarak bu sözcüğü de çıkarmak önemlidir. "coffee"yi bırakmak ek bir içgörü sağlamaz ve sıklık analizinde gereğinden fazla vurgulanmasına neden olur.
c() fonksiyonunu kullanarak durak sözcük listesine yeni sözcükler ekleyebilirsin. Örneğin aşağıdaki kod, varsayılan İngilizce durak sözcük listesine "word1" ve "word2"yi ekler:
all_stops <- c("word1", "word2", stopwords("en"))
Mantıklı bir durak sözcük listen olduğunda, metnine removeWords() fonksiyonunu uygularsın. removeWords() iki argüman alır: uygulanacağı text nesnesi ve kaldırılacak sözcüklerin listesi.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
- Standart durak sözcükleri
stopwords("en")çağırarak gözden geçir. textiçinden "en" durak sözcüklerini kaldır.- Standart durak sözcüklere "coffee" ve "bean" ekleyerek
new_stops'a ata. - Özelleştirilmiş durak sözcükleri, yani
new_stops'utextiçinden kaldır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___