Agrupación Wikipedia parte I
Como has visto en el vídeo,TruncatedSVDes capaz de aplicar el PCA a arreglos dispersos en formato csr_matrix, como los arreglos de frecuencia de palabras. Combina tus conocimientos sobre TruncatedSVD y k-means para agrupar en clústeres algunas páginas populares de Wikipedia. En este ejercicio, construye la canalización. En el siguiente ejercicio, lo aplicarás a la matriz de frecuencia de palabras de algunos artículos de Wikipedia.
Crea un objeto Pipeline que consista en un TruncatedSVD seguido de KMeans. (Esta vez, hemos calculado previamente la matriz de frecuencia de palabras por ti, por lo que no es necesario un TfidfVectorizer).
El conjunto de datos de Wikipedia con el que vas a trabajar se obtuvo de aquí.
Este ejercicio forma parte del curso
Aprendizaje no supervisado en Python
Instrucciones del ejercicio
- Importa:
TruncatedSVDdesklearn.decomposition.KMeansdesklearn.cluster.make_pipelinedesklearn.pipeline.
- Crea una instancia de
TruncatedSVDllamadasvdconn_components=50. - Crea una instancia de
KMeansllamadakmeansconn_clusters=6. - Crea una canalización llamada
pipelineformada porsvdykmeans.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____