Calcular e plotar a soma dos erros quadráticos
Agora, você vai calcular a soma dos erros quadráticos para diferentes números de clusters, de 1 a 10.
Você usará os dados RFMT normalizados que criou no exercício anterior, armazenados como datamart_rfmt_normalized. O módulo KMeans do scikit-learn também já foi importado. Além disso, inicializamos um dicionário vazio para armazenar as somas dos erros quadráticos como sse = {}.
Sinta-se à vontade para explorar os dados no console.
Este exercício faz parte do curso
Segmentação de Clientes em Python
Instruções do exercício
- Inicialize o KMeans com
kclusters e random_state igual a 1 e ajuste o KMeans no conjunto de dados normalizado. - Atribua a soma das distâncias quadráticas ao elemento
kdo dicionáriosse. - Adicione o título do gráfico "The Elbow Method", o rótulo do eixo X "k" e o rótulo do eixo Y "SSE".
- Plote os valores de SSE para cada
karmazenado como chave no dicionário.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Fit KMeans and calculate SSE for each k between 1 and 10
for k in range(1, 11):
# Initialize KMeans with k clusters and fit it
kmeans = ____(____=____, ____=1 ).____(datamart_rfmt_normalized)
# Assign sum of squared distances to k element of the sse dictionary
____[____] = kmeans.____
# Add the plot title, x and y axis labels
plt.____('The Elbow Method')
plt.____('____')
plt.____('____')
# Plot SSE values for each k stored as keys in the dictionary
sns.____(x=list(sse.____()), y=list(sse.____()))
plt.show()