Impact des graines aléatoires sur des clusters distincts
Vous avez observé l’effet des graines aléatoires sur un jeu de données qui ne présentait pas de groupes de clusters bien définis. Dans cet exercice, vous allez vérifier si les graines influencent les clusters dans les données de Comic Con, où les groupes sont bien définis.
Les données sont stockées dans un DataFrame pandas, comic_con. x_scaled et y_scaled sont les noms des colonnes contenant les coordonnées X et Y normalisées des personnes à un instant donné.
Cet exercice fait partie du cours
Analyse de clusters en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import random class
____
# Initialize seed
random.____(____)
# Run kmeans clustering
cluster_centers, distortion = kmeans(comic_con[['x_scaled', 'y_scaled']], 2)
comic_con['cluster_labels'], distortion_list = vq(comic_con[['x_scaled', 'y_scaled']], cluster_centers)
# Plot the scatterplot
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()