Agrupación Wikipedia parte I
En el vídeo has visto que TruncatedSVD
es capaz de realizar PCA en matrices dispersas en formato csr_matrix, como las matrices de frecuencia de palabras. Combina tus conocimientos deSVD truncado y k-medias para agrupar algunas páginas populares de Wikipedia. En este ejercicio, construye la canalización. En el siguiente ejercicio, lo aplicarás a la matriz de frecuencia de palabras de algunos artículos de Wikipedia.
Crea un objeto canalización formado por unSVD truncado seguido de KMeans. (Esta vez, hemos calculado previamente la matriz de frecuencia de palabras por ti, por lo que no es necesario un TfidfVectorizer).
El conjunto de datos de Wikipedia con el que vas a trabajar se obtuvo de aquí.
Este ejercicio forma parte del curso
Aprendizaje no supervisado en Python
Instrucciones del ejercicio
- Importa:
TruncatedSVD
desklearn.decomposition
.KMeans
desklearn.cluster
.make_pipeline
desklearn.pipeline
.
- Crea una instancia de
TruncatedSVD
llamadasvd
conn_components=50
. - Crea una instancia de
KMeans
llamadakmeans
conn_clusters=6
. - Crea una canalización llamada
pipeline
formada porsvd
ykmeans
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____