Déterminer le nombre optimal de clusters
Ici, vous allez utiliser la méthode du critère du coude pour identifier le nombre optimal de clusters, c’est‑à‑dire le point à partir duquel la diminution de la somme des erreurs au carré devient marginale. C’est une étape importante pour obtenir un ordre de grandeur mathématique du nombre de clusters à tester. Vous parcourrez plusieurs valeurs de k et exécuterez un algorithme KMeans pour chacune, puis vous tracerez les erreurs en fonction de chaque k afin d’identifier le « coude » où la diminution des erreurs ralentit.
Cet exercice fait partie du cours
Machine Learning pour le marketing en Python
Instructions
- Créez un dictionnaire
ssevide. - Ajustez un algorithme
KMeanspour des valeurs de k entre 1 et 11 et enregistrez les erreurs dans le dictionnairesse. - Ajoutez le titre au graphique.
- Créez un nuage de points avec les clés sur l’axe des X et les valeurs sur l’axe des Y, puis affichez le graphique.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create empty sse dictionary
sse = {}
# Fit KMeans algorithm on k values between 1 and 11
for k in ___(1, 11):
kmeans = ___(n_clusters=___, random_state=333)
kmeans.___(wholesale_scaled_df)
sse[k] = kmeans.inertia_
# Add the title to the plot
plt.___('Elbow criterion method chart')
# Create and display a scatter plot
sns.pointplot(x=list(sse.___()), y=list(sse.___()))
plt.___()