Agrupamento da Wikipédia, parte I
Você viu no vídeo que TruncatedSVD consegue fazer PCA em matrizes esparsas no formato csr_matrix, como matrizes de frequência de palavras. Junta o que você sabe sobre TruncatedSVD e k-means pra agrupar algumas páginas populares da Wikipedia. Neste exercício, crie o pipeline. No próximo exercício, você vai aplicar isso à matriz de frequência de palavras de alguns artigos da Wikipedia.
Crie um objeto Pipeline que consiste em um TruncatedSVD seguido por KMeans. (Desta vez, já calculamos a matriz de frequência de palavras pra você, então não precisa usar o TfidfVectorizer).
O conjunto de dados da Wikipedia com o qual você vai trabalhar foi obtido aqui.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Importar:
TruncatedSVDdesklearn.decomposition.KMeansdesklearn.cluster.make_pipelinedesklearn.pipeline.
- Crie uma instância do
TruncatedSVDchamadasvdcomn_components=50. - Crie uma instância do
KMeanschamadakmeanscomn_clusters=6. - Crie um pipeline chamado “
pipeline” comsvdekmeans.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____