BaşlayınÜcretsiz başlayın

Hepsini birleştir: metin tabanlı bir dendrogram

Artık ilk metin tabanlı dendrogramını oluşturmak için becerilerini kullanma zamanı. Unutma, dendrogramlar verileri anlamlandırmana yardımcı olmak için bilgiyi sadeleştirir. Bu, bir ortalamanın bir popülasyon hakkında bir şeyler söylemesi ama her şeyi söylememesi gibidir. İkisi de yanıltıcı olabilir. Metinde ise çoğu zaman anlamsız birçok küme olur; ancak değerli kümeler de ortaya çıkabilir.

TDM ve DTM nesnelerinin bir özelliği, dist() fonksiyonuyla kullanmadan önce bunları as.matrix() ile matrise dönüştürmen gerekmesidir.

Chardonnay tweet’lerinde soul müzik efsanesi Marvin Gaye’in kelime bulutunda görünmesine şaşırmış olabilirsin. Bakalım dendrogram da aynı şeyi yakalıyor mu.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

  • tweets_tdm üzerinde removeSparseTerms() uygulayarak tweets_tdm2yi oluştur. sparse = 0.975 kullan.
  • tweets_tdm2yi matris forma dönüştürmek için as.matrix() kullanarak tdm_myi oluştur.
  • dist() fonksiyonunu kullanarak tdm_min uzaklıklarını içeren tweets_disti oluştur.
  • tweets_dist üzerinde hclust() kullanarak hc adlı bir hiyerarşik kümeleme nesnesi oluştur.
  • plot() ve hc ile bir dendrogram oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)
Kodu Düzenle ve Çalıştır