BaşlayınÜcretsiz Başlayın

Uzaklık matrisi ve dendrogram

Sözcük kümeleme analizi yapmanın basit bir yolu, terim-belge matrisi üzerinde bir dendrogram kullanmaktır. Bir TDM oluşturduktan sonra, matrisin her bir satırı arasındaki farkları hesaplamak için dist() çağrısı yapabilirsin.

Sonrasında, uzaklık matrisinin benzer olmama değerleri üzerinde kümeleme analizi yapmak için hclust() çağırırsın. Son olarak, sözcük frekansı uzaklıklarını bir dendrogram ve plot() kullanarak görselleştirebilirsin. Metin madenciliğinde, dendrograma bakarak ilginç içgörüler veya sözcük kümeleri ortaya çıkarabileceğin durumlar sıkça olur.

Son videoda gördüğün yıllık yağış tablosunu düşün. Cleveland ve Portland aynı miktarda yağış alıyor, dolayısıyla aralarındaki uzaklık 0. Bu iki şehrin bir küme oluşturmasını, New Orleans'ın ise çok daha fazla yağış aldığı için tek başına kalmasını bekleyebilirsin.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

rain veri çerçevesi çalışma alanında önceden yüklendi.

  • rainin ikinci sütunundaki değerlere dist() uygulayarak dist_rain oluştur.
  • dist_rain matrisini konsola yazdır.
  • dist_rain üzerinde hclust() kullanarak bir kümeleme analizi yap ve hc oluştur.
  • Şehir adlarını eklemek için labels = rain$city ile hc nesnesini plot() et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)
Kodu Düzenle ve Çalıştır