Hal praktis: penskalaan

Ingat dari video bahwa pengelompokan data nyata mungkin memerlukan scaling fitur jika distribusinya berbeda. Sejauh ini di bab ini, Anda bekerja dengan data sintetis yang tidak memerlukan penskalaan.

Dalam latihan ini, Anda akan kembali bekerja dengan data "nyata", himpunan data pokemon yang diperkenalkan di bab pertama. Anda akan mengamati distribusi (mean dan simpangan baku) setiap fitur, melakukan penskalaan data sesuai, lalu membuat model hierarchical clustering menggunakan metode complete linkage.

Latihan ini merupakan bagian dari kursus

Unsupervised Learning di R

Instruksi latihan

Data disimpan dalam objek pokemon di ruang kerja Anda.

Amati mean dari setiap variabel di pokemon menggunakan fungsi colMeans().
Amati simpangan baku dari setiap variabel menggunakan fungsi apply() dan sd(). Karena variabel merupakan kolom matriks Anda, pastikan untuk menentukan 2 sebagai argumen MARGIN pada apply().
Skala data pokemon menggunakan fungsi scale() dan simpan hasilnya dalam pokemon.scaled.
Buat model hierarchical clustering dari data pokemon.scaled menggunakan metode complete linkage. Tentukan argumen method secara manual dan simpan hasilnya dalam hclust.pokemon.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# View column means


# View column standard deviations


# Scale the data


# Create hierarchical clustering model: hclust.pokemon

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Unsupervised Learning di R

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Algoritma k-means adalah salah satu pendekatan umum untuk clustering. Pelajari bagaimana algoritma ini bekerja di balik layar, terapkan clustering k-means di R, visualisasikan dan interpretasikan hasilnya, serta pilih jumlah klaster saat jumlahnya tidak diketahui sebelumnya. Pada akhir bab, Anda akan menerapkan clustering k-means pada himpunan data "dunia nyata" yang menyenangkan!

Exercise 1: Selamat datang di kursus ini!Exercise 2: Identifikasi masalah clustering Exercise 3: Pengenalan pengelompokan k-means Exercise 4: Pengelompokan k-means Exercise 5: Hasil dari kmeans()Exercise 6: Memvisualisasikan dan menafsirkan hasil kmeans()Exercise 7: Cara kerja k-means dan hal-hal praktis Exercise 8: Menangani algoritme acak Exercise 9: Memilih jumlah klaster Exercise 10: Pengantar data Pokemon Exercise 11: Hal-hal praktis: bekerja dengan data nyata Exercise 12: Tinjauan k-means clustering

Hierarchical clustering adalah metode populer lainnya untuk clustering. Tujuan bab ini adalah membahas cara kerjanya, cara menggunakannya, dan bagaimana perbandingannya dengan clustering k-means.

Exercise 1: Pengantar pengelompokan hierarkis Exercise 2: Pengelompokan hierarkis dengan hasil Exercise 3: Memilih jumlah klaster Exercise 4: Menafsirkan dendrogram Exercise 5: Memotong pohon Exercise 6: Keterkaitan clustering dan hal-hal praktis Exercise 7: Metode linkage Exercise 8: Membandingkan metode linkage Exercise 9: Hal praktis: penskalaan

Latihan Saat Ini

Exercise 10: Membandingkan kmeans() dan hclust()Exercise 11: Tinjauan pengelompokan hierarkis

Principal component analysis, atau PCA, adalah pendekatan umum untuk pengurangan dimensi. Pelajari secara tepat apa yang dilakukan PCA, visualisasikan hasil PCA dengan biplot dan scree plot, serta tangani isu-isu praktis seperti melakukan centering dan scaling pada data sebelum menjalankan PCA.

Exercise 1: Pengantar PCA Exercise 2: PCA menggunakan prcomp()Exercise 3: Hasil PCA Exercise 4: Hasil tambahan dari PCA Exercise 5: Memvisualisasikan dan menafsirkan hasil PCA Exercise 6: Menafsirkan biplot (1)Exercise 7: Menafsirkan biplot (2)Exercise 8: Varians yang dijelaskan Exercise 9: Visualisasikan ragam yang dijelaskan Exercise 10: Isu praktis pada PCA Exercise 11: Isu praktis: penskalaan Exercise 12: Kegunaan tambahan PCA dan rangkuman

Tujuan bab ini adalah membimbing Anda melalui analisis lengkap menggunakan teknik unsupervised learning yang dibahas dalam tiga bab pertama. Anda akan memperluas apa yang telah dipelajari dengan menggabungkan PCA sebagai langkah prapemrosesan untuk clustering menggunakan data yang terdiri atas pengukuran inti sel dari massa payudara manusia.

Exercise 1: Pengantar studi kasus Exercise 2: Menyiapkan data Exercise 3: Analisis data eksploratori Exercise 4: Melakukan PCA Exercise 5: Menafsirkan hasil PCA Exercise 6: Varians yang dijelaskan Exercise 7: Ulasan PCA dan langkah selanjutnya Exercise 8: Mengkomunikasikan hasil PCA Exercise 9: Klasterisasi hierarkis pada data studi kasus Exercise 10: Hasil pengelompokan hierarkis Exercise 11: Memilih jumlah klaster Exercise 12: Klasterisasi k-means dan membandingkan hasil Exercise 13: Clustering pada hasil PCA Exercise 14: Ringkasan dan tinjauan