Memilih jumlah klaster
Dalam latihan ini, Anda akan membandingkan keluaran dari model pengelompokan hierarkis dengan diagnosis sebenarnya. Biasanya saat melakukan pembelajaran unsupervised seperti ini, variabel target tidak tersedia. Namun, pada himpunan data ini kita memilikinya, sehingga dapat digunakan untuk memeriksa kinerja model pengelompokan.
Saat melakukan pembelajaran supervised—yaitu ketika Anda mencoba memprediksi variabel target tertentu dan variabel target tersebut tersedia dalam data asli—menggunakan pengelompokan untuk membuat fitur baru bisa jadi meningkatkan atau tidak meningkatkan kinerja model akhir. Latihan ini akan membantu Anda menentukan apakah, dalam kasus ini, pengelompokan hierarkis memberikan fitur baru yang menjanjikan.
Latihan ini adalah bagian dari kursus
Unsupervised Learning di R
Petunjuk latihan
wisc.data, diagnosis, wisc.pr, pve, dan wisc.hclust tersedia di workspace Anda.
- Gunakan
cutree()untuk memotong pohon sehingga memiliki 4 klaster. Simpan keluarannya ke variabelwisc.hclust.clusters. - Gunakan fungsi
table()untuk membandingkan keanggotaan klaster dengan diagnosis sebenarnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Cut tree so that it has 4 clusters: wisc.hclust.clusters
# Compare cluster membership to actual diagnoses