Uzaklık matrisi ve dendrogram

Sözcük kümeleme analizi yapmanın basit bir yolu, terim-belge matrisi üzerinde bir dendrogram kullanmaktır. Bir TDM oluşturduktan sonra, matrisin her bir satırı arasındaki farkları hesaplamak için dist() çağrısı yapabilirsin.

Sonrasında, uzaklık matrisinin benzer olmama değerleri üzerinde kümeleme analizi yapmak için hclust() çağırırsın. Son olarak, sözcük frekansı uzaklıklarını bir dendrogram ve plot() kullanarak görselleştirebilirsin. Metin madenciliğinde, dendrograma bakarak ilginç içgörüler veya sözcük kümeleri ortaya çıkarabileceğin durumlar sıkça olur.

Son videoda gördüğün yıllık yağış tablosunu düşün. Cleveland ve Portland aynı miktarda yağış alıyor, dolayısıyla aralarındaki uzaklık 0. Bu iki şehrin bir küme oluşturmasını, New Orleans'ın ise çok daha fazla yağış aldığı için tek başına kalmasını bekleyebilirsin.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

rain veri çerçevesi çalışma alanında önceden yüklendi.

rainin ikinci sütunundaki değerlere dist() uygulayarak dist_rain oluştur.
dist_rain matrisini konsola yazdır.
dist_rain üzerinde hclust() kullanarak bir kümeleme analizi yap ve hc oluştur.
Şehir adlarını eklemek için labels = rain$city ile hc nesnesini plot() et.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)

Kodu Düzenle ve Çalıştır