K-means clustering: primeiro exercício
Este exercício fará com que você se familiarize com o uso do k-means clustering em um conjunto de dados. Vamos usar o conjunto de dados da Comic Con e verificar como o agrupamento k-means funciona nele.
Lembre-se das duas etapas do k-means clustering:
- Defina os centros de cluster por meio da função
kmeans()
. Ele tem dois argumentos obrigatórios: observações e número de clusters. - Atribua rótulos de cluster por meio da função
vq()
. Ele tem dois argumentos necessários: observações e centros de cluster.
Os dados são armazenados em um DataFrame do pandas, comic_con
. x_scaled
e y_scaled
são os nomes das colunas das coordenadas X e Y padronizadas das pessoas em um determinado momento.
Este exercício faz parte do curso
Análise de cluster em Python
Instruções do exercício
- Importe as funções
kmeans
evq
no SciPy. - Gere centros de cluster usando a função
kmeans()
com dois clusters. - Crie rótulos de cluster usando esses centros de cluster.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()