İki sözcüklü ifadeler kelime bulutlarını nasıl etkiler?
Artık bir bigram DTM oluşturduğuna göre, bunu inceleyebilir ve bir kelime bulutunu yeniden oluşturabilirsin. Yeni belirteçleştirme yöntemi yalnızca matrisleri değil, aynı zamanda bu matrislere dayalı görselleştirme ve modellemeleri de etkiler.
Chardonnay kelime bulutunda "Marvin" ve "Gaye" ayrı terimlerdi, hatırlıyor musun? Bigram kullanarak, belirteçleştirme tüm iki sözcüklü kombinasyonları yakalar. Bu egzersizde kelime bulutunda neler olduğuna bak.
Bu egzersizde stringr paketinden str_subset kullanılıyor. Unutma, düzenli ifadeler başka DataCamp kurslarında daha ayrıntılı ele alınıyor. Hatırlatma olarak, ^ düzenli ifadesi egzersizdeki bigramların başlangıç konumunu eşleştirir.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
Chardonnay tweet'leri temizlendi ve bigram_dtm adlı bir DTM'e dönüştürüldü.
bigram_dtm'i matrise çevirerekbigram_dtm_moluştur.bigram_dtm_müzerindecolSums()uygulayarak sözcük frekanslarından oluşanfreqadlı bir nesne oluştur.names(freq)ile sözcük kombinasyonlarının karakter vektörünü çıkar ve sonucubi_words'a ata.- Tümü "marvin" ile başlayan bigramları görmek için
bi_words'u"^marvin"desenini vererekstr_subset()'e geçir. bi_words,freqvemax.words = 15argümanlarını vererek basit birwordcloud()çiz.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create bigram_dtm_m
___ <- ___(___)
# Create freq
___ <- ___(___)
# Create bi_words
___ <- ___(___)
# Examine part of bi_words
___(___, ___)
# Plot a word cloud
___(___, ___, ___)