Reprise des données de gros : exploration

D’après l’analyse précédente, vous avez constaté que k = 2 présente la plus grande largeur moyenne de silhouette. Dans cet exercice, vous allez poursuivre l’analyse des données de clients de gros en construisant et en explorant un modèle k-means avec 2 clusters.

Cet exercice fait partie du cours

Analyse de clusters avec R

Afficher le cours

Instructions

Créez un modèle k-means nommé model_customers pour les données customers_spend à l’aide de la fonction kmeans() avec centers = 2.
Extrayez le vecteur des attributions de clusters du modèle model_customers$cluster et stockez-le dans la variable clust_customers.
Ajoutez les attributions de clusters comme colonne cluster au data frame customers_spend et enregistrez le résultat dans un nouveau data frame nommé segment_customers.
Calculez la taille de chaque cluster avec count().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

set.seed(42)

# Build a k-means model for the customers_spend with a k of 2
model_customers <- ___

# Extract the vector of cluster assignments from the model
clust_customers <- ___

# Build the segment_customers data frame
segment_customers <- mutate(___, cluster = ___)

# Calculate the size of each cluster
count(___, ___)

# Calculate the mean for each category
segment_customers %>% 
  group_by(cluster) %>% 
  summarise_all(list(mean))

Modifier et exécuter le code