Klasterisasi k-means dan membandingkan hasil
Seperti yang kini Anda ketahui, ada dua jenis utama klasterisasi: hierarkis dan k-means.
Dalam latihan ini, Anda akan membuat model klasterisasi k-means pada data kanker payudara Wisconsin dan membandingkan hasilnya dengan diagnosis aktual serta hasil model klasterisasi hierarkis Anda. Luangkan waktu untuk melihat bagaimana setiap model klasterisasi berkinerja dalam memisahkan dua diagnosis dan bagaimana kedua model tersebut saling membandingkan.
Latihan ini adalah bagian dari kursus
Unsupervised Learning di R
Petunjuk latihan
wisc.data, diagnosis, dan wisc.hclust.clusters masih tersedia.
- Buat model k-means pada
wisc.data, simpan hasilnya kewisc.km. Pastikan membuat 2 klaster, sesuai dengan jumlah diagnosis yang sebenarnya. Juga, ingat untuk men-skala data dan mengulang algoritme 20 kali untuk menemukan model yang berkinerja baik. - Gunakan fungsi
table()untuk membandingkan keanggotaan klaster dari model k-means dengan diagnosis aktual yang terdapat dalam vektordiagnosis. Seberapa baik k-means memisahkan kedua diagnosis tersebut? - Gunakan fungsi
table()untuk membandingkan keanggotaan klaster dari model k-means dengan model klasterisasi hierarkis. Ingat bahwa keanggotaan klaster dari model klasterisasi hierarkis terdapat dalamwisc.hclust.clusters.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a k-means model on wisc.data: wisc.km
# Compare k-means to actual diagnoses
# Compare k-means to hierarchical clustering