ComeçarComece de graça

Calcular e plotar a soma dos erros quadráticos

Agora, você vai calcular a soma dos erros quadráticos para diferentes números de clusters, de 1 a 10.

Você usará os dados RFMT normalizados que criou no exercício anterior, armazenados como datamart_rfmt_normalized. O módulo KMeans do scikit-learn também já foi importado. Além disso, inicializamos um dicionário vazio para armazenar as somas dos erros quadráticos como sse = {}.

Sinta-se à vontade para explorar os dados no console.

Este exercício faz parte do curso

Segmentação de Clientes em Python

Ver curso

Instruções do exercício

  • Inicialize o KMeans com k clusters e random_state igual a 1 e ajuste o KMeans no conjunto de dados normalizado.
  • Atribua a soma das distâncias quadráticas ao elemento k do dicionário sse.
  • Adicione o título do gráfico "The Elbow Method", o rótulo do eixo X "k" e o rótulo do eixo Y "SSE".
  • Plote os valores de SSE para cada k armazenado como chave no dicionário.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Fit KMeans and calculate SSE for each k between 1 and 10
for k in range(1, 11):
  
    # Initialize KMeans with k clusters and fit it 
    kmeans = ____(____=____, ____=1 ).____(datamart_rfmt_normalized)
    
    # Assign sum of squared distances to k element of the sse dictionary
    ____[____] = kmeans.____   

# Add the plot title, x and y axis labels
plt.____('The Elbow Method')
plt.____('____')
plt.____('____')

# Plot SSE values for each k stored as keys in the dictionary
sns.____(x=list(sse.____()), y=list(sse.____()))
plt.show()
Editar e executar o código