ComeçarComece de graça

Agrupamento da Wikipédia, parte I

Você viu no vídeo que TruncatedSVD consegue fazer PCA em matrizes esparsas no formato csr_matrix, como matrizes de frequência de palavras. Junta o que você sabe sobre TruncatedSVD e k-means pra agrupar algumas páginas populares da Wikipedia. Neste exercício, crie o pipeline. No próximo exercício, você vai aplicar isso à matriz de frequência de palavras de alguns artigos da Wikipedia.

Crie um objeto Pipeline que consiste em um TruncatedSVD seguido por KMeans. (Desta vez, já calculamos a matriz de frequência de palavras pra você, então não precisa usar o TfidfVectorizer).

O conjunto de dados da Wikipedia com o qual você vai trabalhar foi obtido aqui.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver curso

Instruções do exercício

  • Importar:
    • TruncatedSVD de sklearn.decomposition.
    • KMeans de sklearn.cluster.
    • make_pipeline de sklearn.pipeline.
  • Crie uma instância do TruncatedSVD chamada svd com n_components=50.
  • Crie uma instância do KMeans chamada kmeans com n_clusters=6.
  • Crie um pipeline chamado “ pipeline ” com svd e kmeans.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Editar e executar o código