Agrupamento de partes da Wikipédia II
Agora é hora de colocar o pipeline do exercício anterior em prática! Você recebe uma matriz articles de frequências de palavras tf-idf de alguns artigos populares da Wikipédia e uma lista titles de seus títulos. Use seu pipeline para agrupar os artigos da Wikipédia.
Uma solução para o exercício anterior foi pré-carregada para você, portanto, um Pipeline pipeline encadeandoSVD truncado com KMeans está disponível.
Este exercício faz parte do curso
Aprendizado não supervisionado em Python
Instruções do exercício
- Importe
pandascomopd. - Ajuste o pipeline à matriz de frequência de palavras
articles. - Prever os rótulos de cluster.
- Alinhe os rótulos de cluster com a lista
titlesde títulos de artigos criando um DataFramedfcomlabelsetitlescomo colunas. Isso foi feito para você. - Use o método
.sort_values()dedfpara classificar o DataFrame pela coluna'label'e imprima o resultado. - Clique em enviar e reserve um momento para investigar seu incrível agrupamento de páginas da Wikipédia!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)