BaşlayınÜcretsiz Başlayın

Hepsini birleştir: metin tabanlı bir dendrogram

Artık ilk metin tabanlı dendrogramını oluşturmak için becerilerini kullanma zamanı. Unutma, dendrogramlar verileri anlamlandırmana yardımcı olmak için bilgiyi sadeleştirir. Bu, bir ortalamanın bir popülasyon hakkında bir şeyler söylemesi ama her şeyi söylememesi gibidir. İkisi de yanıltıcı olabilir. Metinde ise çoğu zaman anlamsız birçok küme olur; ancak değerli kümeler de ortaya çıkabilir.

TDM ve DTM nesnelerinin bir özelliği, dist() fonksiyonuyla kullanmadan önce bunları as.matrix() ile matrise dönüştürmen gerekmesidir.

Chardonnay tweet’lerinde soul müzik efsanesi Marvin Gaye’in kelime bulutunda görünmesine şaşırmış olabilirsin. Bakalım dendrogram da aynı şeyi yakalıyor mu.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • tweets_tdm üzerinde removeSparseTerms() uygulayarak tweets_tdm2yi oluştur. sparse = 0.975 kullan.
  • tweets_tdm2yi matris forma dönüştürmek için as.matrix() kullanarak tdm_myi oluştur.
  • dist() fonksiyonunu kullanarak tdm_min uzaklıklarını içeren tweets_disti oluştur.
  • tweets_dist üzerinde hclust() kullanarak hc adlı bir hiyerarşik kümeleme nesnesi oluştur.
  • plot() ve hc ile bir dendrogram oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)
Kodu Düzenle ve Çalıştır