Durma sözcükleri ve kelime bulutları
Artık metin madenciliği moduna girdiğine ve elinde bir kadeh chardonnay olduğuna göre, biraz daha derinleşelim. Son kelime bulutunda "chardonnay" görseli domine etmişti. Öyle baskındı ki başka ilginç içgörüleri seçememiştin.
Durma sözcüklerine "chardonnay"yi de ekleyerek başka hangi sözcüklerin yaygın olduğunu, ancak başta gölgede kaldığını görelim.
Çalışma alanında chardonnay tweet'lerinin temizlenmiş bir sürümü var, ama şimdi de içgörü sunmayan bazı terimleri çıkaralım. Bu egzersiz karşılaştırma için sana belirli bir tweet'i göstermek üzere content() kullanıyor. Korpusu indekslerken çift köşeli parantez kullanmayı unutma.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
chardonnay_corpiçindeki 24. belgeyecontent()uygula.- İngilizce durma sözcüklerine
"chardonnay"ekleyerekstopsdeğişkenine ata. stopsiçindeki son altı sözcüğü incele.tm_map()ilecleaned_chardonnay_corpoluştur: sırasıylachardonnay_corp,removeWords()işlevi ve durma sözcükleristops'u geçir.- Şimdi sonuçları karşılaştırmak için 24 numaralı tweet'in
contentdeğerine tekrar bak.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])