Dendrograma uygun bir TDM oluştur
Artık bir dendrogram oluşturmanın adımlarını anladığına göre, bunları metne uygulayabilirsin. Ama önce, tm paketindeki removeSparseTerms() ile TDM’indeki sözcük sayısını sınırlaman gerekiyor. Peki TDM/DTM’in seyrekliğini neden ayarlamak isteyesin?
TDM ve DTM’ler seyrektir; yani çoğunlukla sıfırlardan oluşur. Unutma, 1000 tweet, 3000’in üzerinde terime sahip bir TDM’e dönüşebilir! Bu kadar kalabalık bir dendrogramı, özellikle daha fazla metinle çalışıyorsan, kolayca yorumlayamazsın.
Profesyonel ortamlarda iyi bir dendrogram genellikle 25 ila 70 terimli bir TDM’e dayanır. 70’ten fazla terim, görselleştirmeyi kalabalık ve anlaşılmaz yapabilir. Tersine, 25’ten az terim varsa, dendrogramın ilgili ve anlamlı kümeleri göstermeyebilir.
removeSparseTerms() kullanırken sparse parametresi TDM’de tutulacak toplam terim sayısını ayarlar. sparse değeri 1’e ne kadar yakınsa, o kadar çok terim tutulur. Bu değer, TDM’deki her terim için sıfırların yüzdesine göre bir eşik değerini temsil eder.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
tweets_tdm, chardonnay tweet’leri kullanılarak oluşturuldu.
tweets_tdm’in boyutlarını konsola yazdır.tweets_tdmüzerindesparse = 0.95ileremoveSparseTerms()kullanaraktdm1’i oluştur.tweets_tdmüzerindesparse = 0.975ileremoveSparseTerms()kullanaraktdm2’yi oluştur.- Kaç terim kaldığını görmek için
tdm1’i konsola yazdır. - Kaç terim kaldığını görmek için
tdm2’yi konsola yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Print the dimensions of tweets_tdm
___
# Create tdm1
___ <- ___(___, ___)
# Create tdm2
___ <- ___(___, ___)
# Print tdm1
___
# Print tdm2
___