amzn_cons dendrogramı
İncelemelerde uzun çalışma saatleri ve zayıf iş-yaşam dengesi güçlü şekilde vurgulanıyor gibi görünüyor. Basit bir kümeleme tekniği olarak, hiyerarşik kümeleme yapmaya ve bu ifadelerin birbirine ne kadar bağlı olduğunu görmek için bir dendrogram oluşturmaya karar verdin.
Bu egzersiz, kursun bir parçasıdır
R ile Bag-of-Words ile Metin Madenciliği
Egzersiz talimatları
amzn_cons_corpkullanarak vecontrol = list(tokenize = tokenizer)ayarıylaTermDocumentMatrixoluşturupamzn_c_tdmdeğişkenine ata.amzn_c_tdmnesnesini konsola yazdır.removeSparseTerms()fonksiyonunusparseargümanı.993olacak şekildeamzn_c_tdmüzerinde uygulayarakamzn_c_tdm2oluştur.- Uzaklık matrisi
dist(amzn_c_tdm2)ifadesinihclust()fonksiyonunun içine yerleştirerek hiyerarşik küme nesnesihcoluştur. Ayrıcahclust()fonksiyonunamethod = "complete"argümanını da verdiğinden emin ol. - Amazon eksileri bölümündeki kavramların seni nasıl bir sonuca götürebileceğini görmek için kümelenmiş bigramları görüntülemek üzere
hc'yi çizdir.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Print amzn_c_tdm to the console
___
# Create amzn_c_tdm2 by removing sparse terms
___ <- ___
# Create hc as a cluster of distance values
___ <- ___(___,
___)
# Produce a plot of hc
___