MulaiMulai sekarang secara gratis

Hal praktis: penskalaan

Ingat dari video bahwa pengelompokan data nyata mungkin memerlukan scaling fitur jika distribusinya berbeda. Sejauh ini di bab ini, Anda bekerja dengan data sintetis yang tidak memerlukan penskalaan.

Dalam latihan ini, Anda akan kembali bekerja dengan data "nyata", himpunan data pokemon yang diperkenalkan di bab pertama. Anda akan mengamati distribusi (mean dan simpangan baku) setiap fitur, melakukan penskalaan data sesuai, lalu membuat model hierarchical clustering menggunakan metode complete linkage.

Latihan ini adalah bagian dari kursus

Unsupervised Learning di R

Lihat Kursus

Petunjuk latihan

Data disimpan dalam objek pokemon di ruang kerja Anda.

  • Amati mean dari setiap variabel di pokemon menggunakan fungsi colMeans().
  • Amati simpangan baku dari setiap variabel menggunakan fungsi apply() dan sd(). Karena variabel merupakan kolom matriks Anda, pastikan untuk menentukan 2 sebagai argumen MARGIN pada apply().
  • Skala data pokemon menggunakan fungsi scale() dan simpan hasilnya dalam pokemon.scaled.
  • Buat model hierarchical clustering dari data pokemon.scaled menggunakan metode complete linkage. Tentukan argumen method secara manual dan simpan hasilnya dalam hclust.pokemon.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# View column means


# View column standard deviations


# Scale the data


# Create hierarchical clustering model: hclust.pokemon
Edit dan Jalankan Kode