Agrupamento da Wikipédia, parte II
Agora é hora de colocar em prática o pipeline que você criou no exercício anterior! Você recebe uma matriz articles
com frequências de palavras tf-idf de alguns artigos populares da Wikipedia e uma lista titles
com os títulos desses artigos. Use seu pipeline para agrupar os artigos da Wikipedia.
Uma solução para o exercício anterior já está pronta pra você, então tem um Pipeline pipeline
que junta TruncatedSVD com KMeans.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Importe
pandas
comopd
. - Ajuste o pipeline à matriz de frequência de palavras
articles
. - Preveja os rótulos dos clusters.
- Alinhe os rótulos do cluster com a lista
titles
de títulos de artigos criando um DataFramedf
comlabels
etitles
como colunas. Isso foi feito para você. - Use o método “
.sort_values()
” de “df
” para classificar o DataFrame pela coluna “'label'
” e imprima o resultado. - Clique em enviar e dê uma olhada no seu incrível agrupamento de páginas da Wikipedia!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)