Agrupación Wikipedia parte I

En el vídeo has visto que TruncatedSVD es capaz de realizar PCA en arreglos dispersos en formato csr_matrix, como los arreglos de frecuencia de palabras. Combina tus conocimientos sobre TruncatedSVD y k-means para agrupar algunas páginas populares de Wikipedia. En este ejercicio, construye la canalización. En el siguiente ejercicio, lo aplicarás a la matriz de frecuencia de palabras de algunos artículos de Wikipedia.

Crea un objeto Pipeline que conste de un TruncatedSVD seguido de KMeans. (Esta vez, hemos calculado previamente la matriz de frecuencia de palabras por ti, por lo que no es necesario un TfidfVectorizer).

El conjunto de datos de Wikipedia con el que vas a trabajar se obtuvo de aquí.

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

Instrucciones del ejercicio

Importa:
- TruncatedSVD de sklearn.decomposition.
- KMeans de sklearn.cluster.
- make_pipeline de sklearn.pipeline.
Crea una instancia de TruncatedSVD llamada svd con n_components=50.
Crea una instancia de KMeans llamada kmeans con n_clusters=6.
Crea una canalización llamada pipeline formada por svd y kmeans.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Aprende a descubrir los grupos subyacentes (o "clústeres") en un conjunto de datos. Al final de este capítulo, podrás agrupar empresas utilizando sus cotizaciones bursátiles, y distinguir diferentes especies agrupando sus medidas.

Exercise 1: Aprendizaje no supervisado Exercise 2: ¿Cuántas agrupaciones?Exercise 3: Agrupación de puntos 2D Exercise 4: Inspecciona tu agrupación Exercise 5: Evaluar una agrupación Exercise 6: ¿Cuántos clústeres de grano?Exercise 7: Evaluación de la agrupación de granos Exercise 8: Transformación de rasgos para mejorar las agrupaciones Exercise 9: Escala de datos de peces para la agrupación Exercise 10: Agrupación de los datos de los peces Exercise 11: Agrupación de acciones mediante KMeans Exercise 12: ¿Qué acciones se mueven juntas?

En este capítulo, aprenderás dos técnicas de aprendizaje no supervisado para la visualización de datos: la agrupación jerárquica y t-SNE. La agrupación jerárquica fusiona las muestras de datos en grupos cada vez más amplios, lo que da como resultado una visualización en forma de árbol de la jerarquía de grupos resultante. t-SNE mapea las muestras de datos en un espacio bidimensional para que se pueda visualizar la proximidad entre ellas.

Exercise 1: Visualizar jerarquías Exercise 2: ¿Cuántas fusiones?Exercise 3: Agrupación jerárquica de los datos de los granos Exercise 4: Jerarquías de acciones Exercise 5: Etiquetas de clústeres en la agrupación jerárquica Exercise 6: ¿Qué grupos están más cerca?Exercise 7: ¡Vinculación diferente, agrupación jerárquica diferente!Exercise 8: Agrupaciones intermedias Exercise 9: Extraer las etiquetas de los clústeres Exercise 10: t-SNE para mapas bidimensionales Exercise 11: Visualización t-SNE del conjunto de datos de granos Exercise 12: Un mapa t-SNE del mercado bursátil.

La reducción dimensional resume un conjunto de datos utilizando sus patrones comunes. En este capítulo, aprenderás la técnica más fundamental de reducción de dimensiones, el «análisis de componentes principales» (PCA, por sus siglas en inglés). El PCA se utiliza a menudo antes del aprendizaje supervisado para mejorar el rendimiento y la generalización del modelo. También puede ser útil para el aprendizaje no supervisado. Por ejemplo, utilizarás una variante de PCA que te permitirá agrupar artículos de Wikipedia según su contenido.

Exercise 1: Visualización de la transformación PCA Exercise 2: Datos correlacionados en la naturaleza Exercise 3: Decorrelacionar las mediciones de grano con PCA Exercise 4: Componentes principales Exercise 5: Dimensión intrínseca Exercise 6: El primer componente principal Exercise 7: Varianza de las características PCA Exercise 8: Dimensión intrínseca de los datos de los peces Exercise 9: Reducción de dimensiones con PCA Exercise 10: Reducción dimensional de las medidas de los peces Exercise 11: Una matriz tf-idf de frecuencia de palabras Exercise 12: Agrupación Wikipedia parte I

Ejercicio actual

Exercise 13: Agrupación de Wikipedia, parte II

En este capítulo, aprenderás una técnica de reducción de dimensiones denominada «factorización de matrices no negativas» (NMF, por sus siglas en inglés), que expresa las muestras como combinaciones de partes interpretables. Por ejemplo, expresa los documentos como combinaciones de temas, y las imágenes en términos de patrones visuales habituales. También aprenderás a utilizar NMF para crear sistemas de recomendación que te permitan encontrar artículos similares para leer o artistas musicales que se ajusten a tu historial de reproducción.

Exercise 1: Factorización de matrices no negativas (NMF)Exercise 2: Datos no negativos Exercise 3: NMF aplicado a artículos de Wikipedia Exercise 4: Características NMF de los artículos de Wikipedia Exercise 5: NMF reconstruye muestras Exercise 6: NMF aprende partes interpretables Exercise 7: NMF aprende los temas de los documentos Exercise 8: Explora el conjunto de datos de dígitos LED Exercise 9: NMF aprende las partes de las imágenes Exercise 10: El PCA no aprende partes.Exercise 11: Creación de sistemas de recomendación utilizando NMF Exercise 12: ¿Qué artículos son similares a "Cristiano Ronaldo"?Exercise 13: Recomienda artistas musicales parte I Exercise 14: Recomienda artistas musicales, parte II Exercise 15: Reflexiones finales