ComenzarEmpieza gratis

Agrupación Wikipedia parte I

En el vídeo has visto que TruncatedSVD es capaz de realizar PCA en matrices dispersas en formato csr_matrix, como las matrices de frecuencia de palabras. Combina tus conocimientos deSVD truncado y k-medias para agrupar algunas páginas populares de Wikipedia. En este ejercicio, construye la canalización. En el siguiente ejercicio, lo aplicarás a la matriz de frecuencia de palabras de algunos artículos de Wikipedia.

Crea un objeto canalización formado por unSVD truncado seguido de KMeans. (Esta vez, hemos calculado previamente la matriz de frecuencia de palabras por ti, por lo que no es necesario un TfidfVectorizer).

El conjunto de datos de Wikipedia con el que vas a trabajar se obtuvo de aquí.

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

Ver curso

Instrucciones del ejercicio

  • Importa:
    • TruncatedSVD de sklearn.decomposition.
    • KMeans de sklearn.cluster.
    • make_pipeline de sklearn.pipeline.
  • Crea una instancia de TruncatedSVD llamada svd con n_components=50.
  • Crea una instancia de KMeans llamada kmeans con n_clusters=6.
  • Crea una canalización llamada pipeline formada por svd y kmeans.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Editar y ejecutar código