Agrupación de Wikipedia, parte II
¡Ahora es el momento de poner a trabajar tu canalización del ejercicio anterior! Se te da una matriz articles de frecuencias de palabras tf-idf de algunos artículos populares de Wikipedia, y una lista titles de sus títulos. Utiliza tu canalización para agrupar los artículos de Wikipedia.
Se ha precargado una solución al ejercicio anterior, por lo que tienes a tu disposición una cadena de Pipeline pipeline que encadena TruncatedSVD con KMeans.
Este ejercicio forma parte del curso
Aprendizaje no supervisado en Python
Instrucciones del ejercicio
- Importa
pandascomopd. - Ajusta la canalización a la matriz de frecuencia de palabras
articles. - Predecir las etiquetas de los clústeres.
- Alinea las etiquetas de los grupos con la lista
titlesde títulos de artículos creando un DataFramedfconlabelsytitlescomo columnas. Esto se te proporciona hecho. - Utiliza el método
.sort_values()dedfpara ordenar el DataFrame por la columna'label', e imprime el resultado. - ¡Pulsa enviar y tómate un momento para investigar tu increíble agrupación de páginas de Wikipedia!
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)