Klasterisasi k-means dan membandingkan hasil

Seperti yang kini Anda ketahui, ada dua jenis utama klasterisasi: hierarkis dan k-means.

Dalam latihan ini, Anda akan membuat model klasterisasi k-means pada data kanker payudara Wisconsin dan membandingkan hasilnya dengan diagnosis aktual serta hasil model klasterisasi hierarkis Anda. Luangkan waktu untuk melihat bagaimana setiap model klasterisasi berkinerja dalam memisahkan dua diagnosis dan bagaimana kedua model tersebut saling membandingkan.

Latihan ini merupakan bagian dari kursus

Unsupervised Learning di R

Instruksi latihan

wisc.data, diagnosis, dan wisc.hclust.clusters masih tersedia.

Buat model k-means pada wisc.data, simpan hasilnya ke wisc.km. Pastikan membuat 2 klaster, sesuai dengan jumlah diagnosis yang sebenarnya. Juga, ingat untuk men-skala data dan mengulang algoritme 20 kali untuk menemukan model yang berkinerja baik.
Gunakan fungsi table() untuk membandingkan keanggotaan klaster dari model k-means dengan diagnosis aktual yang terdapat dalam vektor diagnosis. Seberapa baik k-means memisahkan kedua diagnosis tersebut?
Gunakan fungsi table() untuk membandingkan keanggotaan klaster dari model k-means dengan model klasterisasi hierarkis. Ingat bahwa keanggotaan klaster dari model klasterisasi hierarkis terdapat dalam wisc.hclust.clusters.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a k-means model on wisc.data: wisc.km


# Compare k-means to actual diagnoses


# Compare k-means to hierarchical clustering

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Unsupervised Learning di R

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Algoritma k-means adalah salah satu pendekatan umum untuk clustering. Pelajari bagaimana algoritma ini bekerja di balik layar, terapkan clustering k-means di R, visualisasikan dan interpretasikan hasilnya, serta pilih jumlah klaster saat jumlahnya tidak diketahui sebelumnya. Pada akhir bab, Anda akan menerapkan clustering k-means pada himpunan data "dunia nyata" yang menyenangkan!

Exercise 1: Selamat datang di kursus ini!Exercise 2: Identifikasi masalah clustering Exercise 3: Pengenalan pengelompokan k-means Exercise 4: Pengelompokan k-means Exercise 5: Hasil dari kmeans()Exercise 6: Memvisualisasikan dan menafsirkan hasil kmeans()Exercise 7: Cara kerja k-means dan hal-hal praktis Exercise 8: Menangani algoritme acak Exercise 9: Memilih jumlah klaster Exercise 10: Pengantar data Pokemon Exercise 11: Hal-hal praktis: bekerja dengan data nyata Exercise 12: Tinjauan k-means clustering

Hierarchical clustering adalah metode populer lainnya untuk clustering. Tujuan bab ini adalah membahas cara kerjanya, cara menggunakannya, dan bagaimana perbandingannya dengan clustering k-means.

Exercise 1: Pengantar pengelompokan hierarkis Exercise 2: Pengelompokan hierarkis dengan hasil Exercise 3: Memilih jumlah klaster Exercise 4: Menafsirkan dendrogram Exercise 5: Memotong pohon Exercise 6: Keterkaitan clustering dan hal-hal praktis Exercise 7: Metode linkage Exercise 8: Membandingkan metode linkage Exercise 9: Hal praktis: penskalaan Exercise 10: Membandingkan kmeans() dan hclust()Exercise 11: Tinjauan pengelompokan hierarkis

Principal component analysis, atau PCA, adalah pendekatan umum untuk pengurangan dimensi. Pelajari secara tepat apa yang dilakukan PCA, visualisasikan hasil PCA dengan biplot dan scree plot, serta tangani isu-isu praktis seperti melakukan centering dan scaling pada data sebelum menjalankan PCA.

Exercise 1: Pengantar PCA Exercise 2: PCA menggunakan prcomp()Exercise 3: Hasil PCA Exercise 4: Hasil tambahan dari PCA Exercise 5: Memvisualisasikan dan menafsirkan hasil PCA Exercise 6: Menafsirkan biplot (1)Exercise 7: Menafsirkan biplot (2)Exercise 8: Varians yang dijelaskan Exercise 9: Visualisasikan ragam yang dijelaskan Exercise 10: Isu praktis pada PCA Exercise 11: Isu praktis: penskalaan Exercise 12: Kegunaan tambahan PCA dan rangkuman

Tujuan bab ini adalah membimbing Anda melalui analisis lengkap menggunakan teknik unsupervised learning yang dibahas dalam tiga bab pertama. Anda akan memperluas apa yang telah dipelajari dengan menggabungkan PCA sebagai langkah prapemrosesan untuk clustering menggunakan data yang terdiri atas pengukuran inti sel dari massa payudara manusia.

Exercise 1: Pengantar studi kasus Exercise 2: Menyiapkan data Exercise 3: Analisis data eksploratori Exercise 4: Melakukan PCA Exercise 5: Menafsirkan hasil PCA Exercise 6: Varians yang dijelaskan Exercise 7: Ulasan PCA dan langkah selanjutnya Exercise 8: Mengkomunikasikan hasil PCA Exercise 9: Klasterisasi hierarkis pada data studi kasus Exercise 10: Hasil pengelompokan hierarkis Exercise 11: Memilih jumlah klaster Exercise 12: Klasterisasi k-means dan membandingkan hasil

Latihan Saat Ini

Exercise 13: Clustering pada hasil PCA Exercise 14: Ringkasan dan tinjauan