ComeçarComece de graça

K-means clustering: primeiro exercício

Este exercício fará com que você se familiarize com o uso do k-means clustering em um conjunto de dados. Vamos usar o conjunto de dados da Comic Con e verificar como o agrupamento k-means funciona nele.

Lembre-se das duas etapas do k-means clustering:

  • Defina os centros de cluster por meio da função kmeans(). Ele tem dois argumentos obrigatórios: observações e número de clusters.
  • Atribua rótulos de cluster por meio da função vq(). Ele tem dois argumentos necessários: observações e centros de cluster.

Os dados são armazenados em um DataFrame do pandas, comic_con. x_scaled e y_scaled são os nomes das colunas das coordenadas X e Y padronizadas das pessoas em um determinado momento.

Este exercício faz parte do curso

Análise de cluster em Python

Ver curso

Instruções do exercício

  • Importe as funções kmeans e vq no SciPy.
  • Gere centros de cluster usando a função kmeans() com dois clusters.
  • Crie rótulos de cluster usando esses centros de cluster.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = comic_con)
plt.show()
Editar e executar o código