Clustering pada hasil PCA
Pada latihan terakhir ini, Anda akan menggabungkan beberapa langkah yang telah digunakan sebelumnya dan, dengan demikian, Anda akan merasakan kreativitas yang lazim dalam unsupervised learning.
Ingat dari latihan sebelumnya bahwa model PCA membutuhkan jauh lebih sedikit fitur untuk menjelaskan 80% dan 95% keragaman data. Selain untuk menormalkan data dan berpotensi menghindari overfitting, PCA juga membuat variabel tidak berkorelasi, yang terkadang meningkatkan kinerja teknik pemodelan lainnya.
Mari kita lihat apakah PCA meningkatkan atau menurunkan kinerja hierarchical clustering.
Latihan ini adalah bagian dari kursus
Unsupervised Learning di R
Petunjuk latihan
wisc.pr, diagnosis, wisc.hclust.clusters, dan wisc.km masih tersedia di workspace Anda.
- Dengan menggunakan jumlah minimum principal component yang diperlukan untuk menjelaskan setidaknya 90% keragaman data, buat model hierarchical clustering dengan complete linkage. Simpan hasilnya ke
wisc.pr.hclust. - Potong model hierarchical clustering ini menjadi 4 cluster dan simpan hasilnya ke
wisc.pr.hclust.clusters. - Gunakan
table()untuk membandingkan hasil dari model hierarchical clustering baru Anda dengan diagnosis sebenarnya. Seberapa baik model baru dengan empat cluster ini memisahkan kedua diagnosis tersebut? - Seberapa baik model k-means dan hierarchical clustering yang Anda buat pada latihan sebelumnya dalam memisahkan diagnosis? Sekali lagi, gunakan fungsi
table()untuk membandingkan keluaran setiap model dengan vektor yang berisi diagnosis sebenarnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)
# Cut model into 4 clusters: wisc.pr.hclust.clusters
# Compare to actual diagnoses
# Compare to k-means and hierarchical