BaşlayınÜcretsiz Başlayın

Dendrograma uygun bir TDM oluştur

Artık bir dendrogram oluşturmanın adımlarını anladığına göre, bunları metne uygulayabilirsin. Ama önce, tm paketindeki removeSparseTerms() ile TDM’indeki sözcük sayısını sınırlaman gerekiyor. Peki TDM/DTM’in seyrekliğini neden ayarlamak isteyesin?

TDM ve DTM’ler seyrektir; yani çoğunlukla sıfırlardan oluşur. Unutma, 1000 tweet, 3000’in üzerinde terime sahip bir TDM’e dönüşebilir! Bu kadar kalabalık bir dendrogramı, özellikle daha fazla metinle çalışıyorsan, kolayca yorumlayamazsın.

Profesyonel ortamlarda iyi bir dendrogram genellikle 25 ila 70 terimli bir TDM’e dayanır. 70’ten fazla terim, görselleştirmeyi kalabalık ve anlaşılmaz yapabilir. Tersine, 25’ten az terim varsa, dendrogramın ilgili ve anlamlı kümeleri göstermeyebilir.

removeSparseTerms() kullanırken sparse parametresi TDM’de tutulacak toplam terim sayısını ayarlar. sparse değeri 1’e ne kadar yakınsa, o kadar çok terim tutulur. Bu değer, TDM’deki her terim için sıfırların yüzdesine göre bir eşik değerini temsil eder.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

tweets_tdm, chardonnay tweet’leri kullanılarak oluşturuldu.

  • tweets_tdm’in boyutlarını konsola yazdır.
  • tweets_tdm üzerinde sparse = 0.95 ile removeSparseTerms() kullanarak tdm1’i oluştur.
  • tweets_tdm üzerinde sparse = 0.975 ile removeSparseTerms() kullanarak tdm2’yi oluştur.
  • Kaç terim kaldığını görmek için tdm1’i konsola yazdır.
  • Kaç terim kaldığını görmek için tdm2’yi konsola yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Print the dimensions of tweets_tdm
___

# Create tdm1
___ <- ___(___, ___)

# Create tdm2
___ <- ___(___, ___)

# Print tdm1
___

# Print tdm2
___
Kodu Düzenle ve Çalıştır