k-means kümeleme ve sonuçları karşılaştırma
Artık bildiğin gibi, iki ana kümeleme türü vardır: hiyerarşik ve k-means.
Bu egzersizde, Wisconsin meme kanseri verisi üzerinde bir k-means kümeleme modeli oluşturacak ve sonuçları hem gerçek tanılarla hem de hiyerarşik kümeleme modelinin sonuçlarıyla karşılaştıracaksın. Her bir kümeleme modelinin iki tanıyı ayırma performansını ve modellerin birbirine göre nasıl durduğunu incelemek için biraz zaman ayır.
Bu egzersiz
R ile Denetimsiz Öğrenme
kursunun bir parçasıdırEgzersiz talimatları
wisc.data, diagnosis ve wisc.hclust.clusters hâlâ kullanılabilir.
wisc.dataüzerinde bir k-means modeli oluştur ve sonucuwisc.kmdeğişkenine ata. Gerçek tanı sayısına karşılık gelecek şekilde 2 küme oluşturduğundan emin ol. Ayrıca veriyi ölçeklemeyi unutma ve iyi bir model bulmak için algoritmayı 20 kez tekrarla.- k-means modelinin küme üyeliğini
diagnosisvektöründeki gerçek tanılarla karşılaştırmak içintable()fonksiyonunu kullan. k-means iki tanıyı ne kadar iyi ayırıyor? - k-means modelinin küme üyeliğini hiyerarşik kümeleme modeliyle karşılaştırmak için
table()fonksiyonunu kullan. Hiyerarşik kümeleme modelinin küme üyeliğininwisc.hclust.clustersiçinde olduğunu unutma.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a k-means model on wisc.data: wisc.km
# Compare k-means to actual diagnoses
# Compare k-means to hierarchical clustering