PCA sonuçları üzerinde kümeleme
Bu son egzersizde, daha önce kullandığın birkaç adımı bir araya getirecek ve bunu yaparken gözetimsiz öğrenmede tipik olan yaratıcılığın bir kısmını deneyimleyeceksin.
Önceki egzersizlerden hatırla: PCA modeli, verinin değişkenliğinin %80’ini ve %95’ini açıklamak için belirgin biçimde daha az özelliğe ihtiyaç duyuyordu. Veriyi normalize etmenin ve olası aşırı uyumu önlemenin yanı sıra PCA, değişkenler arasındaki korelasyonu da kaldırır; bu da bazen diğer modelleme tekniklerinin performansını iyileştirir.
PCA’nın hiyerarşik kümelemenin performansını iyileştirip iyileştirmediğine (ya da kötüleştirip kötüleştirmediğine) bakalım.
Bu egzersiz
R ile Denetimsiz Öğrenme
kursunun bir parçasıdırEgzersiz talimatları
wisc.pr, diagnosis, wisc.hclust.clusters ve wisc.km çalışma alanında hâlâ mevcut.
- Verideki değişkenliğin en az %90’ını açıklamak için gereken asgari temel bileşen sayısını kullanarak, complete linkage ile bir hiyerarşik kümeleme modeli oluştur. Sonuçları
wisc.pr.hclustnesnesine ata. - Bu hiyerarşik kümeleme modelini 4 kümeye böl ve sonuçları
wisc.pr.hclust.clustersnesnesine ata. table()kullanarak, yeni hiyerarşik kümeleme modelinin sonuçlarını gerçek tanılarla karşılaştır. Dört kümeli yeni model iki tanıyı ne kadar iyi ayırıyor?- Önceki egzersizlerde oluşturduğun k-ortalama (k-means) ve hiyerarşik kümeleme modelleri tanıları ayırma açısından ne kadar başarılı? Yine, her modelin çıktısını gerçek tanıları içeren vektörle
table()fonksiyonu üzerinden karşılaştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)
# Cut model into 4 clusters: wisc.pr.hclust.clusters
# Compare to actual diagnoses
# Compare to k-means and hierarchical