ComenzarEmpieza gratis

Clustering k-means: primer ejercicio

Este ejercicio te ayudará a familiarizarte con el uso de k-means en un conjunto de datos. Vamos a usar el conjunto de datos de Comic Con y ver cómo funciona k-means sobre él.

Recuerda los dos pasos de k-means:

  • Definir los centros de los clústeres con la función kmeans(). Tiene dos argumentos obligatorios: las observaciones y el número de clústeres.
  • Asignar etiquetas de clúster con la función vq(). Tiene dos argumentos obligatorios: las observaciones y los centros de clúster.

Los datos están almacenados en un DataFrame de pandas, comic_con. x_scaled y y_scaled son los nombres de las columnas con las coordenadas X e Y estandarizadas de las personas en un momento dado.

Este ejercicio forma parte del curso

Análisis de clústeres en Python

Ver curso

Instrucciones del ejercicio

  • Importa las funciones kmeans y vq de SciPy.
  • Genera los centros de los clústeres usando la función kmeans() con dos clústeres.
  • Crea etiquetas de clúster usando estos centros.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()
Editar y ejecutar código