Determine o número ideal de clusters

Aqui, você vai usar o método do cotovelo (elbow criterion) para identificar o número ideal de clusters, onde a redução da soma dos erros ao quadrado passa a ser marginal. Essa é uma etapa importante para obter um valor inicial, matematicamente razoável, de clusters para começar os testes. Você vai iterar por vários valores de k e executar um algoritmo KMeans para cada um, depois traçar os erros em função de cada k para identificar o “cotovelo”, onde a queda dos erros desacelera.

O módulo KMeans está carregado de sklearn.cluster, a biblioteca seaborn está carregada como sns e o módulo matplotlib.pyplot está carregado como plt. Além disso, o conjunto de dados escalonado está carregado como wholesale_scaled_df, um DataFrame do pandas.

Este exercicio faz parte do curso

Machine Learning para Marketing em Python

Ver curso

Instruções do exercicio

Crie um dicionário sse vazio.
Treine um algoritmo KMeans para valores de k entre 1 e 11 e armazene os erros no dicionário sse.
Adicione o título ao gráfico.
Crie um gráfico de dispersão com as chaves no eixo X e os valores no eixo Y e exiba o gráfico.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create empty sse dictionary
sse = {}

# Fit KMeans algorithm on k values between 1 and 11
for k in ___(1, 11):
    kmeans = ___(n_clusters=___, random_state=333)
    kmeans.___(wholesale_scaled_df)
    sse[k] = kmeans.inertia_

# Add the title to the plot
plt.___('Elbow criterion method chart')

# Create and display a scatter plot
sns.pointplot(x=list(sse.___()), y=list(sse.___()))
plt.___()

Editar e Executar Código