Banyak K, banyak model
Meskipun himpunan data lineup jelas memiliki nilai k yang diketahui, sering kali jumlah klaster yang optimal tidak diketahui dan harus diperkirakan.
Dalam latihan ini Anda akan memanfaatkan map_dbl() dari pustaka purrr untuk menjalankan k-means dengan nilai k dari 1 hingga 10 dan mengekstrak metrik total within-cluster sum of squares dari masing-masing model. Ini akan menjadi langkah pertama menuju visualisasi elbow plot.
Latihan ini adalah bagian dari kursus
Analisis Klaster di R
Petunjuk latihan
- Gunakan
map_dbl()untuk menjalankankmeans()dengan datalineupuntuk nilai k dari 1 hingga 10 dan ekstrak nilai total within-cluster sum of squares dari tiap model:model$tot.withinss. Simpan vektor hasilnya sebagaitot_withinss. - Bangun data frame baru
elbow_dfyang memuat nilai k dan vektor total within-cluster sum of squares.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
library(purrr)
# Use map_dbl to run many models with varying value of k (centers)
tot_withinss <- map_dbl(1:10, function(k){
model <- kmeans(x = ___, centers = ___)
model$tot.withinss
})
# Generate a data frame containing both k and tot_withinss
elbow_df <- data.frame(
k = ___ ,
tot_withinss = ___
)