Hepsini birleştir: metin tabanlı bir dendrogram
Artık ilk metin tabanlı dendrogramını oluşturmak için becerilerini kullanma zamanı. Unutma, dendrogramlar verileri anlamlandırmana yardımcı olmak için bilgiyi sadeleştirir. Bu, bir ortalamanın bir popülasyon hakkında bir şeyler söylemesi ama her şeyi söylememesi gibidir. İkisi de yanıltıcı olabilir. Metinde ise çoğu zaman anlamsız birçok küme olur; ancak değerli kümeler de ortaya çıkabilir.
TDM ve DTM nesnelerinin bir özelliği, dist() fonksiyonuyla kullanmadan önce bunları as.matrix() ile matrise dönüştürmen gerekmesidir.
Chardonnay tweet’lerinde soul müzik efsanesi Marvin Gaye’in kelime bulutunda görünmesine şaşırmış olabilirsin. Bakalım dendrogram da aynı şeyi yakalıyor mu.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
tweets_tdmüzerinderemoveSparseTerms()uygulayaraktweets_tdm2yi oluştur.sparse = 0.975kullan.tweets_tdm2yi matris forma dönüştürmek içinas.matrix()kullanaraktdm_myi oluştur.dist()fonksiyonunu kullanaraktdm_min uzaklıklarını içerentweets_disti oluştur.tweets_distüzerindehclust()kullanarakhcadlı bir hiyerarşik kümeleme nesnesi oluştur.plot()vehcile bir dendrogram oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)