Este exercício faz parte do curso
Saiba como descobrir os grupos subjacentes (ou "clusters") em um conjunto de dados. Ao final deste capítulo, você estará agrupando empresas usando seus preços no mercado de ações e distinguindo espécies diferentes agrupando suas medidas.
Exercício atual
Neste capítulo, você aprenderá sobre duas técnicas de aprendizado não supervisionado para visualização de dados, clustering hierárquico e t-SNE. O clustering hierárquico mescla as amostras de dados em clusters cada vez mais grossos, produzindo uma visualização em árvore da hierarquia de clusters resultante. t-SNE mapeia as amostras de dados no espaço 2d para que a proximidade das amostras entre si possa ser visualizada.
A redução de dimensão resume um conjunto de dados usando os padrões comuns que ocorrem. Neste capítulo, você aprenderá sobre a mais fundamental das técnicas de redução de dimensão, a "Análise de Componentes Principais" ("PCA"). PCA é frequentemente usado antes do aprendizado supervisionado para melhorar o desempenho e a generalização do modelo. Ele também pode ser útil para o aprendizado não supervisionado. Por exemplo, você empregará uma variante do PCA que permitirá agrupar artigos da Wikipédia por seu conteúdo!
Neste capítulo, você aprenderá sobre uma técnica de redução de dimensão chamada "Fatoração de matriz não negativa" ("NMF") que expressa amostras como combinações de partes interpretáveis. Por exemplo, ele expressa documentos como combinações de tópicos e imagens em termos de padrões visuais que ocorrem com frequência. Você também aprenderá a usar o NMF para criar sistemas de recomendação que podem encontrar artigos semelhantes para você ler ou artistas musicais que correspondam ao seu histórico de audição!