Hal praktis: penskalaan
Ingat dari video bahwa pengelompokan data nyata mungkin memerlukan scaling fitur jika distribusinya berbeda. Sejauh ini di bab ini, Anda bekerja dengan data sintetis yang tidak memerlukan penskalaan.
Dalam latihan ini, Anda akan kembali bekerja dengan data "nyata", himpunan data pokemon yang diperkenalkan di bab pertama. Anda akan mengamati distribusi (mean dan simpangan baku) setiap fitur, melakukan penskalaan data sesuai, lalu membuat model hierarchical clustering menggunakan metode complete linkage.
Latihan ini adalah bagian dari kursus
Unsupervised Learning di R
Petunjuk latihan
Data disimpan dalam objek pokemon di ruang kerja Anda.
- Amati mean dari setiap variabel di
pokemonmenggunakan fungsicolMeans(). - Amati simpangan baku dari setiap variabel menggunakan fungsi
apply()dansd(). Karena variabel merupakan kolom matriks Anda, pastikan untuk menentukan 2 sebagai argumenMARGINpadaapply(). - Skala data
pokemonmenggunakan fungsiscale()dan simpan hasilnya dalampokemon.scaled. - Buat model hierarchical clustering dari data
pokemon.scaledmenggunakan metode complete linkage. Tentukan argumenmethodsecara manual dan simpan hasilnya dalamhclust.pokemon.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# View column means
# View column standard deviations
# Scale the data
# Create hierarchical clustering model: hclust.pokemon