amzn_cons dendrogramı
İncelemelerde uzun çalışma saatleri ve zayıf iş-yaşam dengesi güçlü şekilde vurgulanıyor gibi görünüyor. Basit bir kümeleme tekniği olarak, hiyerarşik kümeleme yapmaya ve bu ifadelerin birbirine ne kadar bağlı olduğunu görmek için bir dendrogram oluşturmaya karar verdin.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
amzn_cons_corpkullanarak vecontrol = list(tokenize = tokenizer)ayarıylaTermDocumentMatrixoluşturupamzn_c_tdmdeğişkenine ata.amzn_c_tdmnesnesini konsola yazdır.removeSparseTerms()fonksiyonunusparseargümanı.993olacak şekildeamzn_c_tdmüzerinde uygulayarakamzn_c_tdm2oluştur.- Uzaklık matrisi
dist(amzn_c_tdm2)ifadesinihclust()fonksiyonunun içine yerleştirerek hiyerarşik küme nesnesihcoluştur. Ayrıcahclust()fonksiyonunamethod = "complete"argümanını da verdiğinden emin ol. - Amazon eksileri bölümündeki kavramların seni nasıl bir sonuca götürebileceğini görmek için kümelenmiş bigramları görüntülemek üzere
hc'yi çizdir.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___