Este ejercicio forma parte del curso
Aprende a descubrir los grupos subyacentes (o "clústeres") en un conjunto de datos. Al final de este capítulo, podrás agrupar empresas utilizando sus cotizaciones bursátiles, y distinguir diferentes especies agrupando sus medidas.
En este capítulo, conocerás dos técnicas de aprendizaje no supervisado para la visualización de datos, la agrupación jerárquica y t-SNE. La agrupación jerárquica fusiona las muestras de datos en clústeres cada vez más gruesos, dando lugar a una visualización en árbol de la jerarquía de clústeres resultante. t-SNE mapea las muestras de datos en un espacio 2d para poder visualizar la proximidad de las muestras entre sí.
La reducción dimensional resume un conjunto de datos utilizando sus patrones comunes. En este capítulo, conocerás la más fundamental de las técnicas de reducción de dimensiones, el "Análisis de Componentes Principales" ("PCA"). PCA se utiliza a menudo antes del aprendizaje supervisado para mejorar el rendimiento y la generalización de los modelos. También puede ser útil para el aprendizaje no supervisado. Por ejemplo, emplearás una variante de PCA ¡que te permitirá agrupar artículos de Wikipedia por su contenido!
Ejercicio actual
En este capítulo, conocerás una técnica de reducción de dimensiones llamada "Factorización de matrices no negativas" ("NMF") que expresa las muestras como combinaciones de partes interpretables. Por ejemplo, expresa los documentos como combinaciones de temas, y las imágenes en términos de patrones visuales habituales. También aprenderás a utilizar NMF para construir sistemas de recomendación que puedan encontrarte artículos similares para leer, ¡o artistas musicales que coincidan con tu historial de escucha!