BaşlayınÜcretsiz Başlayın

amzn_cons dendrogramı

İncelemelerde uzun çalışma saatleri ve zayıf iş-yaşam dengesi güçlü şekilde vurgulanıyor gibi görünüyor. Basit bir kümeleme tekniği olarak, hiyerarşik kümeleme yapmaya ve bu ifadelerin birbirine ne kadar bağlı olduğunu görmek için bir dendrogram oluşturmaya karar verdin.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • amzn_cons_corp kullanarak ve control = list(tokenize = tokenizer) ayarıyla TermDocumentMatrix oluşturup amzn_c_tdm değişkenine ata.
  • amzn_c_tdm nesnesini konsola yazdır.
  • removeSparseTerms() fonksiyonunu sparse argümanı .993 olacak şekilde amzn_c_tdm üzerinde uygulayarak amzn_c_tdm2 oluştur.
  • Uzaklık matrisi dist(amzn_c_tdm2) ifadesini hclust() fonksiyonunun içine yerleştirerek hiyerarşik küme nesnesi hc oluştur. Ayrıca hclust() fonksiyonuna method = "complete" argümanını da verdiğinden emin ol.
  • Amazon eksileri bölümündeki kavramların seni nasıl bir sonuca götürebileceğini görmek için kümelenmiş bigramları görüntülemek üzere hc'yi çizdir.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Print amzn_c_tdm to the console
___

# Create amzn_c_tdm2 by removing sparse terms 
___ <- ___

# Create hc as a cluster of distance values
___ <- ___(___,
           ___)

# Produce a plot of hc
___
Kodu Düzenle ve Çalıştır