Durma sözcükleri ve kelime bulutları

Artık metin madenciliği moduna girdiğine ve elinde bir kadeh chardonnay olduğuna göre, biraz daha derinleşelim. Son kelime bulutunda "chardonnay" görseli domine etmişti. Öyle baskındı ki başka ilginç içgörüleri seçememiştin.

Durma sözcüklerine "chardonnay"yi de ekleyerek başka hangi sözcüklerin yaygın olduğunu, ancak başta gölgede kaldığını görelim.

Çalışma alanında chardonnay tweet'lerinin temizlenmiş bir sürümü var, ama şimdi de içgörü sunmayan bazı terimleri çıkaralım. Bu egzersiz karşılaştırma için sana belirli bir tweet'i göstermek üzere content() kullanıyor. Korpusu indekslerken çift köşeli parantez kullanmayı unutma.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

chardonnay_corp içindeki 24. belgeye content() uygula.
İngilizce durma sözcüklerine "chardonnay" ekleyerek stops değişkenine ata.
stops içindeki son altı sözcüğü incele.
tm_map() ile cleaned_chardonnay_corp oluştur: sırasıyla chardonnay_corp, removeWords() işlevi ve durma sözcükleri stops'u geçir.
Şimdi sonuçları karşılaştırmak için 24 numaralı tweet'in content değerine tekrar bak.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])

Kodu Düzenle ve Çalıştır