BaşlayınÜcretsiz Başlayın

Durak sözcükler hakkında her şey

Bazı sözcükler sık geçer ama çok az bilgi taşır. Bunlara durak sözcükler (stop words) denir ve analizinden çıkarmak isteyebilirsin. Yaygın İngilizce durak sözcüklerden bazıları "I", "she'll", "the" vb.dir. tm paketinde 174 yaygın İngilizce durak sözcük vardır (bu egzersizde onları yazdıracaksın!)

Bir analiz yaparken bu listeye muhtemelen ekleme yapman gerekir. Kahve tweeti örneğimizde tüm tweet'lerde "coffee" geçtiği için, yaygın durak sözcüklere ek olarak bu sözcüğü de çıkarmak önemlidir. "coffee"yi bırakmak ek bir içgörü sağlamaz ve sıklık analizinde gereğinden fazla vurgulanmasına neden olur.

c() fonksiyonunu kullanarak durak sözcük listesine yeni sözcükler ekleyebilirsin. Örneğin aşağıdaki kod, varsayılan İngilizce durak sözcük listesine "word1" ve "word2"yi ekler:

all_stops <- c("word1", "word2", stopwords("en"))

Mantıklı bir durak sözcük listen olduğunda, metnine removeWords() fonksiyonunu uygularsın. removeWords() iki argüman alır: uygulanacağı text nesnesi ve kaldırılacak sözcüklerin listesi.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Standart durak sözcükleri stopwords("en") çağırarak gözden geçir.
  • text içinden "en" durak sözcüklerini kaldır.
  • Standart durak sözcüklere "coffee" ve "bean" ekleyerek new_stops'a ata.
  • Özelleştirilmiş durak sözcükleri, yani new_stops'u text içinden kaldır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

## text is preloaded into your workspace

# List standard English stop words
___

# Print text without standard stop words
removeWords(___, ___("___"))

# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)

# Remove stop words from text
___
Kodu Düzenle ve Çalıştır