Calcular a soma dos erros quadráticos
Neste exercício, você vai calcular a soma dos erros quadráticos para diferentes números de clusters, variando de 1 a 15. Neste exemplo, estamos usando um conjunto de dados personalizado para obter uma leitura mais limpa do cotovelo.
Carregamos a versão normalizada dos dados como data_normalized. O módulo KMeans do scikit-learn já foi importado. Além disso, inicializamos um dicionário vazio para armazenar as somas dos erros quadráticos como sse = {}.
Fique à vontade para explorar os dados no console.
Este exercício faz parte do curso
Segmentação de Clientes em Python
Instruções do exercício
- Treine o KMeans e calcule a SSE para cada
kem um intervalo de 1 a 15. - Inicialize o KMeans com
kclusters erandom_state=1. - Treine o KMeans no conjunto de dados normalizado.
- Atribua a soma das distâncias quadráticas ao elemento
kdo dicionáriosse.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
# Initialize KMeans with k clusters
kmeans = ____(n_clusters=____, random_state=1)
# Fit KMeans on the normalized dataset
kmeans.____(data_normalized)
# Assign sum of squared distances to k element of dictionary
sse[____] = kmeans.____