Uzaklık matrisi ve dendrogram
Sözcük kümeleme analizi yapmanın basit bir yolu, terim-belge matrisi üzerinde bir dendrogram kullanmaktır. Bir TDM oluşturduktan sonra, matrisin her bir satırı arasındaki farkları hesaplamak için dist() çağrısı yapabilirsin.
Sonrasında, uzaklık matrisinin benzer olmama değerleri üzerinde kümeleme analizi yapmak için hclust() çağırırsın. Son olarak, sözcük frekansı uzaklıklarını bir dendrogram ve plot() kullanarak görselleştirebilirsin. Metin madenciliğinde, dendrograma bakarak ilginç içgörüler veya sözcük kümeleri ortaya çıkarabileceğin durumlar sıkça olur.
Son videoda gördüğün yıllık yağış tablosunu düşün. Cleveland ve Portland aynı miktarda yağış alıyor, dolayısıyla aralarındaki uzaklık 0. Bu iki şehrin bir küme oluşturmasını, New Orleans'ın ise çok daha fazla yağış aldığı için tek başına kalmasını bekleyebilirsin.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
rain veri çerçevesi çalışma alanında önceden yüklendi.
rainin ikinci sütunundaki değerleredist()uygulayarakdist_rainoluştur.dist_rainmatrisini konsola yazdır.dist_rainüzerindehclust()kullanarak bir kümeleme analizi yap vehcoluştur.- Şehir adlarını eklemek için
labels = rain$cityilehcnesnesiniplot()et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)