Agrupamento da Wikipédia, parte I

Você viu no vídeo que TruncatedSVD consegue fazer PCA em matrizes esparsas no formato csr_matrix, como matrizes de frequência de palavras. Junta o que você sabe sobre TruncatedSVD e k-means pra agrupar algumas páginas populares da Wikipedia. Neste exercício, crie o pipeline. No próximo exercício, você vai aplicar isso à matriz de frequência de palavras de alguns artigos da Wikipedia.

Crie um objeto Pipeline que consiste em um TruncatedSVD seguido por KMeans. (Desta vez, já calculamos a matriz de frequência de palavras pra você, então não precisa usar o TfidfVectorizer).

O conjunto de dados da Wikipedia com o qual você vai trabalhar foi obtido aqui.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Instruções do exercício

Importar:
- TruncatedSVD de sklearn.decomposition.
- KMeans de sklearn.cluster.
- make_pipeline de sklearn.pipeline.
Crie uma instância do TruncatedSVD chamada svd com n_components=50.
Crie uma instância do KMeans chamada kmeans com n_clusters=6.
Crie um pipeline chamado “ pipeline ” com svd e kmeans.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____

Editar e executar o código

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Aprenda a descobrir os grupos (ou “clusters”) que estão por trás de um conjunto de dados. No final deste capítulo, você vai saber agrupar empresas usando os preços das ações delas na bolsa e distinguir espécies diferentes agrupando suas medidas.

Exercise 1: Aprendizagem não supervisionada Exercise 2: Quantos clusters?Exercise 3: Agrupamento de pontos 2D Exercise 4: Dá uma olhada no seu agrupamento Exercise 5: Avaliando um agrupamento Exercise 6: Quantos cachos de grãos?Exercise 7: Avaliando o agrupamento dos grãos Exercise 8: Transformando recursos para melhores agrupamentos Exercise 9: Dimensionamento de dados de peixes para agrupamento Exercise 10: Agrupando os dados dos peixes Exercise 11: Agrupando ações usando KMeans Exercise 12: Quais ações se movem juntas?

Neste capítulo, você vai aprender sobre duas técnicas de aprendizado não supervisionado para visualização de dados: agrupamento hierárquico e t-SNE. O agrupamento hierárquico junta as amostras de dados em grupos cada vez mais amplos, criando uma visualização em árvore da hierarquia dos grupos resultantes. O t-SNE mapeia as amostras de dados em um espaço 2D para que a proximidade entre as amostras possa ser visualizada.

Exercise 1: Visualizando hierarquias Exercise 2: Quantas fusões?Exercise 3: Agrupamento hierárquico dos dados dos grãos Exercise 4: Hierarquias de ações Exercise 5: Rótulos de agrupamentos em agrupamentos hierárquicos Exercise 6: Quais são os clusters mais próximos?Exercise 7: Ligação diferente, agrupamento hierárquico diferente!Exercise 8: Agrupamentos intermediários Exercise 9: Extraindo os rótulos do cluster Exercise 10: t-SNE para mapas bidimensionais Exercise 11: Visualização t-SNE do conjunto de dados de grãos Exercise 12: Um mapa t-SNE do mercado de ações

A redução de dimensões resume um conjunto de dados usando os padrões que aparecem com mais frequência. Neste capítulo, você vai aprender sobre a técnica mais básica de redução de dimensões, a “Análise de Componentes Principais” (PCA). A PCA é frequentemente usada antes do aprendizado supervisionado para melhorar o desempenho e a generalização do modelo. Também pode ser útil para o aprendizado sem supervisão. Por exemplo, você vai usar uma variante da PCA que vai te ajudar a agrupar artigos da Wikipedia pelo conteúdo!

Exercise 1: Visualizando a transformação PCA Exercise 2: Dados correlacionados na natureza Exercise 3: Descorrelacionando as medições de grãos com PCA Exercise 4: Componentes principais Exercise 5: Dimensão intrínseca Exercise 6: O primeiro componente principal Exercise 7: Variação das características da PCA Exercise 8: Dimensão intrínseca dos dados sobre peixes Exercise 9: Redução de dimensões com PCA Exercise 10: Redução das dimensões das medidas dos peixes Exercise 11: Uma matriz de frequência de palavras tf-idf Exercise 12: Agrupamento da Wikipédia, parte I

Exercício atual

Exercise 13: Agrupamento da Wikipédia, parte II

Neste capítulo, você vai aprender sobre uma técnica de redução de dimensão chamada “Fatoração de matriz não negativa” (NMF), que mostra amostras como combinações de partes que a gente consegue entender. Por exemplo, expressa documentos como combinações de tópicos e imagens em termos de padrões visuais comuns. Você também vai aprender a usar NMF pra criar sistemas de recomendação que podem achar artigos parecidos pra você ler ou artistas musicais que combinam com o seu histórico de músicas!

Exercise 1: Fatoração de matriz não negativa (NMF)Exercise 2: Dados não negativos Exercise 3: NMF aplicado a artigos da Wikipedia Exercise 4: Características NMF dos artigos da Wikipedia Exercise 5: O NMF reconstrói amostras Exercise 6: NMF aprende partes interpretáveis Exercise 7: O NMF aprende os tópicos dos documentos Exercise 8: Dá uma olhada no conjunto de dados de dígitos LED Exercise 9: O NMF aprende as partes das imagens Exercise 10: A PCA não aprende partes Exercise 11: Criando sistemas de recomendação usando NMF Exercise 12: Quais artigos são parecidos com “Cristiano Ronaldo”?Exercise 13: Recomenda artistas musicais, parte I Exercise 14: Recomenda artistas musicais, parte II Exercise 15: Considerações finais