ComenzarEmpieza gratis

Agrupación de Wikipedia, parte II

¡Ahora es el momento de poner a trabajar tu canalización del ejercicio anterior! Se te da una matriz articles de frecuencias de palabras tf-idf de algunos artículos populares de Wikipedia, y una lista titles de sus títulos. Utiliza tu canalización para agrupar los artículos de Wikipedia.

Se ha precargado una solución al ejercicio anterior, por lo que tienes a tu disposición una cadena de Pipeline pipeline que encadena TruncatedSVD con KMeans.

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

Ver curso

Instrucciones del ejercicio

  • Importa pandas como pd.
  • Ajusta la canalización a la matriz de frecuencia de palabras articles.
  • Predecir las etiquetas de los clústeres.
  • Alinea las etiquetas de los grupos con la lista titles de títulos de artículos creando un DataFrame df con labels y titles como columnas. Esto se te proporciona hecho.
  • Utiliza el método .sort_values() de df para ordenar el DataFrame por la columna 'label', e imprime el resultado.
  • ¡Pulsa enviar y tómate un momento para investigar tu increíble agrupación de páginas de Wikipedia!

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Editar y ejecutar código