Calcular la suma de errores al cuadrado

En este ejercicio, vas a calcular la suma de errores al cuadrado para distintos números de clústeres, de 1 a 15. En este ejemplo usamos un conjunto de datos creado a medida para obtener un codo más claro.

Hemos cargado la versión normalizada de los datos como data_normalized. El módulo KMeans de scikit-learn ya está importado. Además, hemos inicializado un diccionario vacío para almacenar la suma de errores al cuadrado como sse = {}.

Si quieres, explora los datos en la consola.

Este ejercicio forma parte del curso

Segmentación de clientes en Python

Ver curso

Instrucciones del ejercicio

Ajusta KMeans y calcula la SSE para cada k en un rango entre 1 y 15.
Inicializa KMeans con k clústeres y random_state 1.
Ajusta KMeans sobre el conjunto de datos normalizado.
Asigna la suma de distancias al cuadrado al elemento k del diccionario sse.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
  
    # Initialize KMeans with k clusters
    kmeans = ____(n_clusters=____, random_state=1)
    
    # Fit KMeans on the normalized dataset
    kmeans.____(data_normalized)
    
    # Assign sum of squared distances to k element of dictionary
    sse[____] = kmeans.____

Editar y ejecutar código