ComeçarComece gratuitamente

Agrupamento de partes da Wikipédia II

Agora é hora de colocar o pipeline do exercício anterior em prática! Você recebe uma matriz articles de frequências de palavras tf-idf de alguns artigos populares da Wikipédia e uma lista titles de seus títulos. Use seu pipeline para agrupar os artigos da Wikipédia.

Uma solução para o exercício anterior foi pré-carregada para você, portanto, um Pipeline pipeline encadeandoSVD truncado com KMeans está disponível.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver Curso

Instruções de exercício

  • Importe pandas como pd.
  • Ajuste o pipeline à matriz de frequência de palavras articles.
  • Prever os rótulos de cluster.
  • Alinhe os rótulos de cluster com a lista titles de títulos de artigos criando um DataFrame df com labels e titles como colunas. Isso foi feito para você.
  • Use o método .sort_values() de df para classificar o DataFrame pela coluna 'label' e imprima o resultado.
  • Clique em enviar e reserve um momento para investigar seu incrível agrupamento de páginas da Wikipédia!

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Editar e executar código