PCA sonuçları üzerinde kümeleme

Bu son egzersizde, daha önce kullandığın birkaç adımı bir araya getirecek ve bunu yaparken gözetimsiz öğrenmede tipik olan yaratıcılığın bir kısmını deneyimleyeceksin.

Önceki egzersizlerden hatırla: PCA modeli, verinin değişkenliğinin %80’ini ve %95’ini açıklamak için belirgin biçimde daha az özelliğe ihtiyaç duyuyordu. Veriyi normalize etmenin ve olası aşırı uyumu önlemenin yanı sıra PCA, değişkenler arasındaki korelasyonu da kaldırır; bu da bazen diğer modelleme tekniklerinin performansını iyileştirir.

PCA’nın hiyerarşik kümelemenin performansını iyileştirip iyileştirmediğine (ya da kötüleştirip kötüleştirmediğine) bakalım.

Bu egzersiz

R ile Denetimsiz Öğrenme

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

wisc.pr, diagnosis, wisc.hclust.clusters ve wisc.km çalışma alanında hâlâ mevcut.

Verideki değişkenliğin en az %90’ını açıklamak için gereken asgari temel bileşen sayısını kullanarak, complete linkage ile bir hiyerarşik kümeleme modeli oluştur. Sonuçları wisc.pr.hclust nesnesine ata.
Bu hiyerarşik kümeleme modelini 4 kümeye böl ve sonuçları wisc.pr.hclust.clusters nesnesine ata.
table() kullanarak, yeni hiyerarşik kümeleme modelinin sonuçlarını gerçek tanılarla karşılaştır. Dört kümeli yeni model iki tanıyı ne kadar iyi ayırıyor?
Önceki egzersizlerde oluşturduğun k-ortalama (k-means) ve hiyerarşik kümeleme modelleri tanıları ayırma açısından ne kadar başarılı? Yine, her modelin çıktısını gerçek tanıları içeren vektörle table() fonksiyonu üzerinden karşılaştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)

# Cut model into 4 clusters: wisc.pr.hclust.clusters


# Compare to actual diagnoses


# Compare to k-means and hierarchical

Kodu Düzenle ve Çalıştır