ComenzarEmpieza gratis

Calcular la suma de errores al cuadrado

En este ejercicio, vas a calcular la suma de errores al cuadrado para distintos números de clústeres, de 1 a 15. En este ejemplo usamos un conjunto de datos creado a medida para obtener un codo más claro.

Hemos cargado la versión normalizada de los datos como data_normalized. El módulo KMeans de scikit-learn ya está importado. Además, hemos inicializado un diccionario vacío para almacenar la suma de errores al cuadrado como sse = {}.

Si quieres, explora los datos en la consola.

Este ejercicio forma parte del curso

Segmentación de clientes en Python

Ver curso

Instrucciones del ejercicio

  • Ajusta KMeans y calcula la SSE para cada k en un rango entre 1 y 15.
  • Inicializa KMeans con k clústeres y random_state 1.
  • Ajusta KMeans sobre el conjunto de datos normalizado.
  • Asigna la suma de distancias al cuadrado al elemento k del diccionario sse.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
  
    # Initialize KMeans with k clusters
    kmeans = ____(n_clusters=____, random_state=1)
    
    # Fit KMeans on the normalized dataset
    kmeans.____(data_normalized)
    
    # Assign sum of squared distances to k element of dictionary
    sse[____] = kmeans.____
Editar y ejecutar código