Agrupación de Wikipedia, parte II
¡Ahora es el momento de poner a trabajar tu canalización del ejercicio anterior! Se te da una matriz articles
de frecuencias de palabras tf-idf de algunos artículos populares de Wikipedia, y una lista titles
de sus títulos. Utiliza tu canalización para agrupar los artículos de Wikipedia.
Se ha precargado una solución al ejercicio anterior, por lo que tienes a tu disposición una cadena de Pipeline pipeline
que encadena TruncatedSVD con KMeans.
Este ejercicio forma parte del curso
Aprendizaje no supervisado en Python
Instrucciones del ejercicio
- Importa
pandas
comopd
. - Ajusta la canalización a la matriz de frecuencia de palabras
articles
. - Predecir las etiquetas de los clústeres.
- Alinea las etiquetas de los grupos con la lista
titles
de títulos de artículos creando un DataFramedf
conlabels
ytitles
como columnas. Esto se te proporciona hecho. - Utiliza el método
.sort_values()
dedf
para ordenar el DataFrame por la columna'label'
, e imprime el resultado. - ¡Pulsa enviar y tómate un momento para investigar tu increíble agrupación de páginas de Wikipedia!
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)