Este exercício faz parte do curso
Antes de estar pronto para classificar artigos de notícias, você precisa conhecer os conceitos básicos de clustering. Este capítulo o familiariza com uma classe de algoritmos de aprendizado de máquina chamada aprendizado não supervisionado e, em seguida, apresenta a você o agrupamento, um dos algoritmos populares de aprendizado não supervisionado. Você conhecerá duas técnicas de agrupamento populares: agrupamento hierárquico e agrupamento k-means. O capítulo termina com as etapas básicas de pré-processamento antes de você começar a clusterizar os dados.
Este capítulo se concentra em um algoritmo de agrupamento popular - o agrupamento hierárquico - e sua implementação no SciPy. Além do procedimento para executar o agrupamento hierárquico, ele tenta ajudar você a responder a uma pergunta importante: quantos agrupamentos estão presentes nos seus dados? O capítulo termina com uma discussão sobre as limitações do agrupamento hierárquico e discute as considerações ao usar o agrupamento hierárquico.
Exercício atual
Este capítulo apresenta um algoritmo de agrupamento diferente - o agrupamento k-means - e sua implementação no SciPy. O agrupamento K-means supera a maior desvantagem do agrupamento hierárquico que foi discutida no último capítulo. Como os dendrogramas são específicos do agrupamento hierárquico, este capítulo discute um método para encontrar o número de clusters antes de executar o agrupamento k-means. O capítulo termina com uma discussão sobre as limitações do k-means clustering e discute as considerações ao usar esse algoritmo.
Agora que você já conhece duas das técnicas de clustering mais populares, este capítulo o ajudará a aplicar esse conhecimento a problemas do mundo real. O capítulo primeiro discute o processo de encontrar cores dominantes em uma imagem, antes de passar para o problema discutido na introdução - agrupamento de artigos de notícias. O capítulo termina com uma discussão sobre clustering com várias variáveis, o que dificulta a visualização de todos os dados.