ComeçarComece gratuitamente

Agrupamento da Wikipédia parte I

Você viu no vídeo que o TruncatedSVD é capaz de executar PCA em matrizes esparsas no formato csr_matrix, como matrizes de frequência de palavras. Combine seus conhecimentos de TruncatedSVD e k-means para agrupar algumas páginas populares da Wikipedia. Neste exercício, crie o pipeline. No próximo exercício, você o aplicará à matriz de frequência de palavras de alguns artigos da Wikipédia.

Crie um objeto Pipeline que consiste em umSVD truncado seguido de KMeans. (Desta vez, pré-computamos a matriz de frequência de palavras para você, portanto, não há necessidade de um TfidfVectorizer).

O conjunto de dados da Wikipédia com o qual você trabalhará foi obtido aqui.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver Curso

Instruções de exercício

  • Importação:
    • TruncatedSVD de sklearn.decomposition.
    • KMeans de sklearn.cluster.
    • make_pipeline de sklearn.pipeline.
  • Crie uma instância TruncatedSVD chamada svd com n_components=50.
  • Crie uma instância KMeans chamada kmeans com n_clusters=6.
  • Crie um pipeline chamado pipeline que consiste em svd e kmeans.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Editar e executar código