CommencerCommencer gratuitement

Déterminer le nombre optimal de clusters

Ici, vous allez utiliser la méthode du critère du coude pour identifier le nombre optimal de clusters, c’est‑à‑dire le point à partir duquel la diminution de la somme des erreurs au carré devient marginale. C’est une étape importante pour obtenir un ordre de grandeur mathématique du nombre de clusters à tester. Vous parcourrez plusieurs valeurs de k et exécuterez un algorithme KMeans pour chacune, puis vous tracerez les erreurs en fonction de chaque k afin d’identifier le « coude » où la diminution des erreurs ralentit.

Cet exercice fait partie du cours

Machine Learning pour le marketing en Python

Afficher le cours

Instructions

  • Créez un dictionnaire sse vide.
  • Ajustez un algorithme KMeans pour des valeurs de k entre 1 et 11 et enregistrez les erreurs dans le dictionnaire sse.
  • Ajoutez le titre au graphique.
  • Créez un nuage de points avec les clés sur l’axe des X et les valeurs sur l’axe des Y, puis affichez le graphique.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create empty sse dictionary
sse = {}

# Fit KMeans algorithm on k values between 1 and 11
for k in ___(1, 11):
    kmeans = ___(n_clusters=___, random_state=333)
    kmeans.___(wholesale_scaled_df)
    sse[k] = kmeans.inertia_

# Add the title to the plot
plt.___('Elbow criterion method chart')

# Create and display a scatter plot
sns.pointplot(x=list(sse.___()), y=list(sse.___()))
plt.___()
Modifier et exécuter le code