Patrones de clustering uniformes

Ahora que ya conoces el impacto de las semillas, veamos el sesgo de k-means hacia la formación de clusters uniformes.

Para el siguiente ejercicio usaremos un conjunto de datos con forma de ratón. Un conjunto de datos con forma de ratón es un grupo de puntos que recuerda a la cabeza de un ratón: tiene tres clusters de puntos dispuestos en círculos, uno para la cara y dos para las orejas.

Así es como suele verse un conjunto de datos con forma de ratón (Fuente).

Los datos están almacenados en un DataFrame de pandas, mouse. x_scaled e y_scaled son los nombres de las columnas con las coordenadas X e Y estandarizadas de los puntos.

Este ejercicio forma parte del curso

Análisis de clústeres en Python

Instrucciones del ejercicio

Importa las funciones kmeans y vq de SciPy.
Genera los centros de los clusters usando la función kmeans() con tres clusters.
Crea las etiquetas de cluster con vq() usando los centros generados arriba.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the kmeans and vq functions
____

# Generate cluster centers
cluster_centers, distortion = ____

# Assign cluster labels
mouse['cluster_labels'], distortion_list = ____

# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled', 
                hue='cluster_labels', data = mouse)
plt.show()

Editar y ejecutar código

Este ejercicio forma parte del curso

Análisis de clústeres en Python

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

Antes de estar listo para clasificar artículos de noticias, necesitas conocer las bases del clustering. Este capítulo te familiariza con una clase de algoritmos de Machine Learning llamada aprendizaje no supervisado y, a continuación, te introduce el clustering, uno de sus métodos más populares. Conocerás dos técnicas habituales de clustering: el clustering jerárquico y el clustering k-means. El capítulo concluye con los pasos básicos de preprocesamiento antes de empezar a agrupar datos.

Exercise 1: Machine Learning no supervisado: conceptos básicos Exercise 2: Unsupervised learning en el mundo real Exercise 3: Avistamientos de Pokémon Exercise 4: Fundamentos del análisis de clústeres Exercise 5: Avistamientos de Pokémon: clustering jerárquico Exercise 6: Avistamientos de Pokémon: clustering con k-means Exercise 7: Preparación de datos para el análisis de clústeres Exercise 8: Normaliza datos básicos en una lista Exercise 9: Visualiza datos normalizados Exercise 10: Normalización de números pequeños Exercise 11: FIFA 18: Normaliza los datos

Este capítulo se centra en un algoritmo de clustering muy utilizado —el clustering jerárquico— y su implementación en SciPy. Además de explicar el procedimiento para realizar clustering jerárquico, te ayuda a responder una pregunta importante: ¿cuántos clústeres hay en tus datos? El capítulo finaliza con una revisión de las limitaciones del clustering jerárquico y las consideraciones a tener en cuenta al usarlo.

Exercise 1: Conceptos básicos del clustering jerárquico Exercise 2: Clustering jerárquico: método ward Exercise 3: Clustering jerárquico: método single Exercise 4: Clustering jerárquico: método complete Exercise 5: Visualiza los clústeres Exercise 6: Visualiza clústeres con matplotlib Exercise 7: Visualiza clústeres con seaborn Exercise 8: ¿Cuántos clústeres?Exercise 9: Crea un dendrograma Exercise 10: ¿Cuántos clústeres hay en los datos de la comic con?Exercise 11: Limitaciones del clustering jerárquico Exercise 12: Medir el tiempo de ejecución del clustering jerárquico Exercise 13: FIFA 18: explorando defensas

Este capítulo presenta un algoritmo de clustering diferente —k-means— y su implementación en SciPy. K-means supera la mayor desventaja del clustering jerárquico que se comentó en el capítulo anterior. Como los dendrogramas son específicos del clustering jerárquico, aquí se aborda un método para encontrar el número de clústeres antes de ejecutar k-means. El capítulo concluye con un repaso de las limitaciones de k-means y las consideraciones al usar este algoritmo.

Exercise 1: Fundamentos del clustering k-means Exercise 2: Clustering k-means: primer ejercicio Exercise 3: Tiempo de ejecución de k-means clustering Exercise 4: ¿Cuántos clústeres?Exercise 5: Método del codo en clústeres bien definidos Exercise 6: Método del codo con datos uniformes Exercise 7: Limitaciones del clustering k-means Exercise 8: Impacto de las semillas en clusters distintos Exercise 9: Patrones de clustering uniformes

Ejercicio actual

Exercise 10: FIFA 18: defensas (revisión)

Ahora que ya conoces dos de las técnicas de clustering más populares, este capítulo te ayuda a aplicar lo aprendido a problemas reales. Primero se explica el proceso para encontrar los colores dominantes en una imagen y, después, se retoma el problema comentado en la introducción: el clustering de artículos de noticias. El capítulo termina con una discusión sobre el clustering con múltiples variables, lo que dificulta visualizar todos los datos.

Exercise 1: Colores dominantes en imágenes Exercise 2: Extraer valores RGB de una imagen Exercise 3: ¿Cuántos colores dominantes?Exercise 4: Muestra los colores dominantes Exercise 5: Clustering de documentos Exercise 6: TF-IDF de sinopsis de películas Exercise 7: Términos más destacados en clústeres de películas Exercise 8: Clustering con múltiples variables Exercise 9: Clustering con muchas variables Exercise 10: Comprobaciones básicas de los clústeres Exercise 11: FIFA 18: ¿qué hace a un jugador completo?Exercise 12: ¡Hasta pronto!