ComeçarComece de graça

Calcular a soma dos erros quadráticos

Neste exercício, você vai calcular a soma dos erros quadráticos para diferentes números de clusters, variando de 1 a 15. Neste exemplo, estamos usando um conjunto de dados personalizado para obter uma leitura mais limpa do cotovelo.

Carregamos a versão normalizada dos dados como data_normalized. O módulo KMeans do scikit-learn já foi importado. Além disso, inicializamos um dicionário vazio para armazenar as somas dos erros quadráticos como sse = {}.

Fique à vontade para explorar os dados no console.

Este exercício faz parte do curso

Segmentação de Clientes em Python

Ver curso

Instruções do exercício

  • Treine o KMeans e calcule a SSE para cada k em um intervalo de 1 a 15.
  • Inicialize o KMeans com k clusters e random_state=1.
  • Treine o KMeans no conjunto de dados normalizado.
  • Atribua a soma das distâncias quadráticas ao elemento k do dicionário sse.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
  
    # Initialize KMeans with k clusters
    kmeans = ____(n_clusters=____, random_state=1)
    
    # Fit KMeans on the normalized dataset
    kmeans.____(data_normalized)
    
    # Assign sum of squared distances to k element of dictionary
    sse[____] = kmeans.____
Editar e executar o código