Este ejercicio forma parte del curso
Antes de que estés preparado para clasificar artículos de noticias, es necesario que conozcas los fundamentos de la agrupación. Este capítulo te familiariza con una clase de algoritmos de aprendizaje automático llamados aprendizaje no supervisado y luego te presenta la agrupación, uno de los algoritmos de aprendizaje no supervisado más populares. Conocerás dos técnicas populares de agrupación: la agrupación jerárquica y la agrupación de k-means. El capítulo concluye con unos pasos básicos de preprocesamiento antes de empezar a agrupar datos.
Este capítulo se centra en un popular algoritmo de agrupación -la agrupación jerárquica- y su implementación en SciPy. Además del procedimiento para realizar la agrupación jerárquica, intenta ayudarte a responder a una pregunta importante: ¿cuántas agrupaciones hay en tus datos? El capítulo concluye con un debate sobre las limitaciones de la agrupación jerárquica y analiza las consideraciones a tener en cuenta al utilizarla.
Este capítulo presenta un algoritmo de agrupación diferente -la agrupación de k-means- y su implementación en SciPy. La agrupación de K-means supera el mayor inconveniente de la agrupación jerárquica que se trató en el capítulo anterior. Como los dendrogramas son específicos de la agrupación jerárquica, en este capítulo se analiza un método para hallar el número de conglomerados antes de ejecutar la agrupación de k-means. El capítulo concluye con un debate sobre las limitaciones de la agrupación de k-means y analiza las consideraciones a tener en cuenta al utilizar este algoritmo.
Ejercicio actual
Ahora que ya conoces dos de las técnicas de agrupación más populares, este capítulo te ayuda a aplicar estos conocimientos a problemas del mundo real. El capítulo trata primero del proceso de búsqueda de colores dominantes en una imagen, antes de pasar al problema tratado en la introducción: la agrupación de artículos de noticias. El capítulo concluye con un debate sobre la agrupación con múltiples variables, que dificulta la visualización de todos los datos.