Klasterisasi hierarkis pada data studi kasus
Tujuan latihan ini adalah melakukan klasterisasi hierarkis pada observasi. Ingat dari Bab 2 bahwa jenis klasterisasi ini tidak terlebih dulu mengasumsikan jumlah kelompok alami yang ada dalam data.
Sebagai bagian dari persiapan untuk klasterisasi hierarkis, jarak antara semua pasangan observasi dihitung. Selain itu, ada berbagai cara untuk mengaitkan (link) klaster satu sama lain, dengan metode pengaitan single, complete, dan average sebagai yang paling umum.
Latihan ini adalah bagian dari kursus
Unsupervised Learning di R
Petunjuk latihan
Variabel yang telah Anda buat sebelumnya, wisc.data, diagnosis, wisc.pr, dan pve, tersedia di workspace Anda.
- Skala data
wisc.datadan simpan hasilnya kedata.scaled. - Hitung jarak (Euclidean) antara semua pasangan observasi dalam himpunan data yang sudah diskalakan dan simpan hasilnya ke
data.dist. - Buat model klasterisasi hierarkis menggunakan complete linkage. Tentukan sendiri argumen
methoduntukhclust()dan simpan hasilnya kewisc.hclust.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Scale the wisc.data data: data.scaled
# Calculate the (Euclidean) distances: data.dist
# Create a hierarchical clustering model: wisc.hclust