Agrupamento de partes da Wikipédia II
Agora é hora de colocar o pipeline do exercício anterior em prática! Você recebe uma matriz articles
de frequências de palavras tf-idf de alguns artigos populares da Wikipédia e uma lista titles
de seus títulos. Use seu pipeline para agrupar os artigos da Wikipédia.
Uma solução para o exercício anterior foi pré-carregada para você, portanto, um Pipeline pipeline
encadeandoSVD truncado com KMeans está disponível.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções de exercício
- Importe
pandas
comopd
. - Ajuste o pipeline à matriz de frequência de palavras
articles
. - Prever os rótulos de cluster.
- Alinhe os rótulos de cluster com a lista
titles
de títulos de artigos criando um DataFramedf
comlabels
etitles
como colunas. Isso foi feito para você. - Use o método
.sort_values()
dedf
para classificar o DataFrame pela coluna'label'
e imprima o resultado. - Clique em enviar e reserve um momento para investigar seu incrível agrupamento de páginas da Wikipédia!
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)