Calcular la suma de errores al cuadrado
En este ejercicio, vas a calcular la suma de errores al cuadrado para distintos números de clústeres, de 1 a 15. En este ejemplo usamos un conjunto de datos creado a medida para obtener un codo más claro.
Hemos cargado la versión normalizada de los datos como data_normalized. El módulo KMeans de scikit-learn ya está importado. Además, hemos inicializado un diccionario vacío para almacenar la suma de errores al cuadrado como sse = {}.
Si quieres, explora los datos en la consola.
Este ejercicio forma parte del curso
Segmentación de clientes en Python
Instrucciones del ejercicio
- Ajusta KMeans y calcula la SSE para cada
ken un rango entre 1 y 15. - Inicializa KMeans con
kclústeres yrandom_state1. - Ajusta KMeans sobre el conjunto de datos normalizado.
- Asigna la suma de distancias al cuadrado al elemento
kdel diccionariosse.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
# Initialize KMeans with k clusters
kmeans = ____(n_clusters=____, random_state=1)
# Fit KMeans on the normalized dataset
kmeans.____(data_normalized)
# Assign sum of squared distances to k element of dictionary
sse[____] = kmeans.____