Clustering k-means: primer ejercicio
Este ejercicio te ayudará a familiarizarte con el uso de k-means en un conjunto de datos. Vamos a usar el conjunto de datos de Comic Con y ver cómo funciona k-means sobre él.
Recuerda los dos pasos de k-means:
- Definir los centros de los clústeres con la función
kmeans(). Tiene dos argumentos obligatorios: las observaciones y el número de clústeres. - Asignar etiquetas de clúster con la función
vq(). Tiene dos argumentos obligatorios: las observaciones y los centros de clúster.
Los datos están almacenados en un DataFrame de pandas, comic_con. x_scaled y y_scaled son los nombres de las columnas con las coordenadas X e Y estandarizadas de las personas en un momento dado.
Este ejercicio forma parte del curso
Análisis de clústeres en Python
Instrucciones del ejercicio
- Importa las funciones
kmeansyvqde SciPy. - Genera los centros de los clústeres usando la función
kmeans()con dos clústeres. - Crea etiquetas de clúster usando estos centros.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()