Küme sayısını seçme
Bu egzersizde, hiyerarşik kümeleme modelinden aldığın çıktıları gerçek tanılarla karşılaştıracaksın. Normalde bu tür unsupervised öğrenme yaparken bir hedef değişken mevcut olmaz. Ancak bu veri kümesinde var, bu yüzden kümeleme modelinin performansını kontrol etmek için kullanılabilir.
Supervised öğrenme yaparken—yani ilgilendiğin bir hedef değişkeni tahmin etmeye çalıştığında ve bu hedef değişken orijinal veride mevcut olduğunda—yeni özellikler oluşturmak için kümelemenin kullanılması nihai modelin performansını artırabilir de artırmayabilir de. Bu egzersiz, bu durumda hiyerarşik kümelemenin umut vadeden yeni bir özellik sağlayıp sağlamadığını anlamana yardımcı olacak.
Bu egzersiz
R ile Denetimsiz Öğrenme
kursunun bir parçasıdırEgzersiz talimatları
wisc.data, diagnosis, wisc.pr, pve ve wisc.hclust çalışma alanında mevcut.
- Ağacı 4 kümesi olacak şekilde kesmek için
cutree()kullan. Çıktıyıwisc.hclust.clustersdeğişkenine ata. - Küme üyeliğini gerçek tanılarla karşılaştırmak için
table()fonksiyonunu kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Cut tree so that it has 4 clusters: wisc.hclust.clusters
# Compare cluster membership to actual diagnoses