Agrupamento da Wikipédia parte I
Você viu no vídeo que o TruncatedSVD
é capaz de executar PCA em matrizes esparsas no formato csr_matrix, como matrizes de frequência de palavras. Combine seus conhecimentos de TruncatedSVD e k-means para agrupar algumas páginas populares da Wikipedia. Neste exercício, crie o pipeline. No próximo exercício, você o aplicará à matriz de frequência de palavras de alguns artigos da Wikipédia.
Crie um objeto Pipeline que consiste em umSVD truncado seguido de KMeans. (Desta vez, pré-computamos a matriz de frequência de palavras para você, portanto, não há necessidade de um TfidfVectorizer).
O conjunto de dados da Wikipédia com o qual você trabalhará foi obtido aqui.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções de exercício
- Importação:
TruncatedSVD
desklearn.decomposition
.KMeans
desklearn.cluster
.make_pipeline
desklearn.pipeline
.
- Crie uma instância
TruncatedSVD
chamadasvd
comn_components=50
. - Crie uma instância
KMeans
chamadakmeans
comn_clusters=6
. - Crie um pipeline chamado
pipeline
que consiste emsvd
ekmeans
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____