Clustering k-means : premier exercice
Cet exercice va vous familiariser avec l’utilisation du clustering k-means sur un jeu de données. Utilisons le jeu de données Comic Con et voyons comment k-means s’y comporte.
Rappelez-vous les deux étapes du clustering k-means :
- Définir les centres de clusters via la fonction
kmeans(). Elle prend deux arguments obligatoires : les observations et le nombre de clusters. - Attribuer les étiquettes de clusters via la fonction
vq(). Elle prend deux arguments obligatoires : les observations et les centres de clusters.
Les données sont stockées dans un DataFrame pandas, comic_con. x_scaled et y_scaled sont les noms de colonnes des coordonnées X et Y standardisées des personnes à un instant donné.
Cet exercice fait partie du cours
Analyse de clusters en Python
Instructions
- Importez les fonctions
kmeansetvqde SciPy. - Générez des centres de clusters avec la fonction
kmeans()en demandant deux clusters. - Créez des étiquettes de cluster en utilisant ces centres de clusters.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()