CommencerCommencer gratuitement

K-means : analyse du coude

Dans les exercices précédents, vous avez utilisé le dendrogramme pour proposer un regroupement en 3 clusters. Dans cet exercice, vous allez vous appuyer sur le graphique du coude pour k-means afin de proposer le « meilleur » nombre de clusters.

Cet exercice fait partie du cours

Analyse de clusters avec R

Afficher le cours

Instructions

  • Utilisez map_dbl() pour exécuter kmeans() sur les données oes pour des valeurs de k allant de 1 à 10 et extrayez la valeur de la somme des carrés intra-cluster totale de chaque modèle : model$tot.withinss. Stockez le vecteur obtenu dans tot_withinss.
  • Créez un nouveau data frame elbow_df contenant les valeurs de k et le vecteur de somme des carrés intra-cluster totale.
  • Utilisez les valeurs de elbow_df pour tracer un graphique en lignes montrant la relation entre k et la somme des carrés intra-cluster totale.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Use map_dbl to run many models with varying value of k (centers)
tot_withinss <- map_dbl(1:10,  function(k){
  model <- kmeans(x = ___, centers = ___)
  model$tot.withinss
})

# Generate a data frame containing both k and tot_withinss
elbow_df <- data.frame(
  k = ___,
  tot_withinss = ___
)

# Plot the elbow plot
ggplot(elbow_df, aes(x = ___, y = ___)) +
  geom_line() +
  scale_x_continuous(breaks = 1:10)
Modifier et exécuter le code