ComeçarComece de graça

Agrupamento da Wikipédia, parte II

Agora é hora de colocar em prática o pipeline que você criou no exercício anterior! Você recebe uma matriz articles com frequências de palavras tf-idf de alguns artigos populares da Wikipedia e uma lista titles com os títulos desses artigos. Use seu pipeline para agrupar os artigos da Wikipedia.

Uma solução para o exercício anterior já está pronta pra você, então tem um Pipeline pipeline que junta TruncatedSVD com KMeans.

Este exercício faz parte do curso

Aprendizado não supervisionado em Python

Ver curso

Instruções do exercício

  • Importe pandas como pd.
  • Ajuste o pipeline à matriz de frequência de palavras articles.
  • Preveja os rótulos dos clusters.
  • Alinhe os rótulos do cluster com a lista titles de títulos de artigos criando um DataFrame df com labels e titles como colunas. Isso foi feito para você.
  • Use o método “ .sort_values() ” de “ df ” para classificar o DataFrame pela coluna “ 'label' ” e imprima o resultado.
  • Clique em enviar e dê uma olhada no seu incrível agrupamento de páginas da Wikipedia!

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Editar e executar o código