BaşlayınÜcretsiz Başlayın

İki sözcüklü ifadeler kelime bulutlarını nasıl etkiler?

Artık bir bigram DTM oluşturduğuna göre, bunu inceleyebilir ve bir kelime bulutunu yeniden oluşturabilirsin. Yeni belirteçleştirme yöntemi yalnızca matrisleri değil, aynı zamanda bu matrislere dayalı görselleştirme ve modellemeleri de etkiler.

Chardonnay kelime bulutunda "Marvin" ve "Gaye" ayrı terimlerdi, hatırlıyor musun? Bigram kullanarak, belirteçleştirme tüm iki sözcüklü kombinasyonları yakalar. Bu egzersizde kelime bulutunda neler olduğuna bak.

Bu egzersizde stringr paketinden str_subset kullanılıyor. Unutma, düzenli ifadeler başka DataCamp kurslarında daha ayrıntılı ele alınıyor. Hatırlatma olarak, ^ düzenli ifadesi egzersizdeki bigramların başlangıç konumunu eşleştirir.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

Chardonnay tweet'leri temizlendi ve bigram_dtm adlı bir DTM'e dönüştürüldü.

  • bigram_dtm'i matrise çevirerek bigram_dtm_m oluştur.
  • bigram_dtm_m üzerinde colSums() uygulayarak sözcük frekanslarından oluşan freq adlı bir nesne oluştur.
  • names(freq) ile sözcük kombinasyonlarının karakter vektörünü çıkar ve sonucu bi_words'a ata.
  • Tümü "marvin" ile başlayan bigramları görmek için bi_words'u "^marvin" desenini vererek str_subset()'e geçir.
  • bi_words, freq ve max.words = 15 argümanlarını vererek basit bir wordcloud() çiz.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)
Kodu Düzenle ve Çalıştır