Clustering pada hasil PCA

Pada latihan terakhir ini, Anda akan menggabungkan beberapa langkah yang telah digunakan sebelumnya dan, dengan demikian, Anda akan merasakan kreativitas yang lazim dalam unsupervised learning.

Ingat dari latihan sebelumnya bahwa model PCA membutuhkan jauh lebih sedikit fitur untuk menjelaskan 80% dan 95% keragaman data. Selain untuk menormalkan data dan berpotensi menghindari overfitting, PCA juga membuat variabel tidak berkorelasi, yang terkadang meningkatkan kinerja teknik pemodelan lainnya.

Mari kita lihat apakah PCA meningkatkan atau menurunkan kinerja hierarchical clustering.

Latihan ini adalah bagian dari kursus

Unsupervised Learning di R

Lihat Kursus

Petunjuk latihan

wisc.pr, diagnosis, wisc.hclust.clusters, dan wisc.km masih tersedia di workspace Anda.

Dengan menggunakan jumlah minimum principal component yang diperlukan untuk menjelaskan setidaknya 90% keragaman data, buat model hierarchical clustering dengan complete linkage. Simpan hasilnya ke wisc.pr.hclust.
Potong model hierarchical clustering ini menjadi 4 cluster dan simpan hasilnya ke wisc.pr.hclust.clusters.
Gunakan table() untuk membandingkan hasil dari model hierarchical clustering baru Anda dengan diagnosis sebenarnya. Seberapa baik model baru dengan empat cluster ini memisahkan kedua diagnosis tersebut?
Seberapa baik model k-means dan hierarchical clustering yang Anda buat pada latihan sebelumnya dalam memisahkan diagnosis? Sekali lagi, gunakan fungsi table() untuk membandingkan keluaran setiap model dengan vektor yang berisi diagnosis sebenarnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)

# Cut model into 4 clusters: wisc.pr.hclust.clusters


# Compare to actual diagnoses


# Compare to k-means and hierarchical

Edit dan Jalankan Kode