MulaiMulai sekarang secara gratis

Banyak K, banyak model

Meskipun himpunan data lineup jelas memiliki nilai k yang diketahui, sering kali jumlah klaster yang optimal tidak diketahui dan harus diperkirakan.

Dalam latihan ini Anda akan memanfaatkan map_dbl() dari pustaka purrr untuk menjalankan k-means dengan nilai k dari 1 hingga 10 dan mengekstrak metrik total within-cluster sum of squares dari masing-masing model. Ini akan menjadi langkah pertama menuju visualisasi elbow plot.

Latihan ini adalah bagian dari kursus

Analisis Klaster di R

Lihat Kursus

Petunjuk latihan

  • Gunakan map_dbl() untuk menjalankan kmeans() dengan data lineup untuk nilai k dari 1 hingga 10 dan ekstrak nilai total within-cluster sum of squares dari tiap model: model$tot.withinss. Simpan vektor hasilnya sebagai tot_withinss.
  • Bangun data frame baru elbow_df yang memuat nilai k dan vektor total within-cluster sum of squares.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

library(purrr)

# Use map_dbl to run many models with varying value of k (centers)
tot_withinss <- map_dbl(1:10,  function(k){
  model <- kmeans(x = ___, centers = ___)
  model$tot.withinss
})

# Generate a data frame containing both k and tot_withinss
elbow_df <- data.frame(
  k = ___ ,
  tot_withinss = ___
)
Edit dan Jalankan Kode