Durak sözcükler hakkında her şey

Bazı sözcükler sık geçer ama çok az bilgi taşır. Bunlara durak sözcükler (stop words) denir ve analizinden çıkarmak isteyebilirsin. Yaygın İngilizce durak sözcüklerden bazıları "I", "she'll", "the" vb.dir. tm paketinde 174 yaygın İngilizce durak sözcük vardır (bu egzersizde onları yazdıracaksın!)

Bir analiz yaparken bu listeye muhtemelen ekleme yapman gerekir. Kahve tweeti örneğimizde tüm tweet'lerde "coffee" geçtiği için, yaygın durak sözcüklere ek olarak bu sözcüğü de çıkarmak önemlidir. "coffee"yi bırakmak ek bir içgörü sağlamaz ve sıklık analizinde gereğinden fazla vurgulanmasına neden olur.

c() fonksiyonunu kullanarak durak sözcük listesine yeni sözcükler ekleyebilirsin. Örneğin aşağıdaki kod, varsayılan İngilizce durak sözcük listesine "word1" ve "word2"yi ekler:

all_stops <- c("word1", "word2", stopwords("en"))

Mantıklı bir durak sözcük listen olduğunda, metnine removeWords() fonksiyonunu uygularsın. removeWords() iki argüman alır: uygulanacağı text nesnesi ve kaldırılacak sözcüklerin listesi.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

Standart durak sözcükleri stopwords("en") çağırarak gözden geçir.
text içinden "en" durak sözcüklerini kaldır.
Standart durak sözcüklere "coffee" ve "bean" ekleyerek new_stops'a ata.
Özelleştirilmiş durak sözcükleri, yani new_stops'u text içinden kaldır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

## text is preloaded into your workspace

# List standard English stop words
___

# Print text without standard stop words
removeWords(___, ___("___"))

# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)

# Remove stop words from text
___

Kodu Düzenle ve Çalıştır