Agrupamento da Wikipédia parte I
Você viu no vídeo que o TruncatedSVD é capaz de executar PCA em matrizes esparsas no formato csr_matrix, como matrizes de frequência de palavras. Combine seus conhecimentos de TruncatedSVD e k-means para agrupar algumas páginas populares da Wikipedia. Neste exercício, crie o pipeline. No próximo exercício, você o aplicará à matriz de frequência de palavras de alguns artigos da Wikipédia.
Crie um objeto Pipeline que consiste em umSVD truncado seguido de KMeans. (Desta vez, pré-computamos a matriz de frequência de palavras para você, portanto, não há necessidade de um TfidfVectorizer).
O conjunto de dados da Wikipédia com o qual você trabalhará foi obtido aqui.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Importação:
TruncatedSVDdesklearn.decomposition.KMeansdesklearn.cluster.make_pipelinedesklearn.pipeline.
- Crie uma instância
TruncatedSVDchamadasvdcomn_components=50. - Crie uma instância
KMeanschamadakmeanscomn_clusters=6. - Crie um pipeline chamado
pipelineque consiste emsvdekmeans.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____