Agrupamento da Wikipédia, parte I
Você viu no vídeo que TruncatedSVD
consegue fazer PCA em matrizes esparsas no formato csr_matrix, como matrizes de frequência de palavras. Junta o que você sabe sobre TruncatedSVD e k-means pra agrupar algumas páginas populares da Wikipedia. Neste exercício, crie o pipeline. No próximo exercício, você vai aplicar isso à matriz de frequência de palavras de alguns artigos da Wikipedia.
Crie um objeto Pipeline que consiste em um TruncatedSVD seguido por KMeans. (Desta vez, já calculamos a matriz de frequência de palavras pra você, então não precisa usar o TfidfVectorizer).
O conjunto de dados da Wikipedia com o qual você vai trabalhar foi obtido aqui.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Importar:
TruncatedSVD
desklearn.decomposition
.KMeans
desklearn.cluster
.make_pipeline
desklearn.pipeline
.
- Crie uma instância do
TruncatedSVD
chamadasvd
comn_components=50
. - Crie uma instância do
KMeans
chamadakmeans
comn_clusters=6
. - Crie um pipeline chamado “
pipeline
” comsvd
ekmeans
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____