Küme sayısını seçme
Bu egzersizde, hiyerarşik kümeleme modelinden aldığın çıktıları gerçek tanılarla karşılaştıracaksın. Normalde bu tür unsupervised öğrenme yaparken bir hedef değişken mevcut olmaz. Ancak bu veri kümesinde var, bu yüzden kümeleme modelinin performansını kontrol etmek için kullanılabilir.
Supervised öğrenme yaparken—yani ilgilendiğin bir hedef değişkeni tahmin etmeye çalıştığında ve bu hedef değişken orijinal veride mevcut olduğunda—yeni özellikler oluşturmak için kümelemenin kullanılması nihai modelin performansını artırabilir de artırmayabilir de. Bu egzersiz, bu durumda hiyerarşik kümelemenin umut vadeden yeni bir özellik sağlayıp sağlamadığını anlamana yardımcı olacak.
Bu egzersiz, kursun bir parçasıdır
R ile Denetimsiz Öğrenme
Egzersiz talimatları
wisc.data, diagnosis, wisc.pr, pve ve wisc.hclust çalışma alanında mevcut.
- Ağacı 4 kümesi olacak şekilde kesmek için
cutree()kullan. Çıktıyıwisc.hclust.clustersdeğişkenine ata. - Küme üyeliğini gerçek tanılarla karşılaştırmak için
table()fonksiyonunu kullan.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Cut tree so that it has 4 clusters: wisc.hclust.clusters
# Compare cluster membership to actual diagnoses