ComenzarEmpieza gratis

Agrupación Wikipedia parte I

En el vídeo has visto que TruncatedSVD es capaz de realizar PCA en arreglos dispersos en formato csr_matrix, como los arreglos de frecuencia de palabras. Combina tus conocimientos sobre TruncatedSVD y k-means para agrupar algunas páginas populares de Wikipedia. En este ejercicio, construye la canalización. En el siguiente ejercicio, lo aplicarás a la matriz de frecuencia de palabras de algunos artículos de Wikipedia.

Crea un objeto Pipeline que conste de un TruncatedSVD seguido de KMeans. (Esta vez, hemos calculado previamente la matriz de frecuencia de palabras por ti, por lo que no es necesario un TfidfVectorizer).

El conjunto de datos de Wikipedia con el que vas a trabajar se obtuvo de aquí.

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

Ver curso

Instrucciones del ejercicio

  • Importa:
    • TruncatedSVD de sklearn.decomposition.
    • KMeans de sklearn.cluster.
    • make_pipeline de sklearn.pipeline.
  • Crea una instancia de TruncatedSVD llamada svd con n_components=50.
  • Crea una instancia de KMeans llamada kmeans con n_clusters=6.
  • Crea una canalización llamada pipeline formada por svd y kmeans.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Editar y ejecutar código