Gensim bag-of-words
Agora, você vai usar seu novo corpus e dicionário do gensim para ver os termos mais comuns por documento e em todos os documentos. Você pode usar o dicionário para consultar os termos. Arrisque quais são os tópicos e fique à vontade para explorar mais documentos no IPython Shell!
Você tem acesso aos objetos dictionary e corpus criados no exercício anterior, além de defaultdict do Python e itertools para ajudar a criar estruturas de dados intermediárias para análise.
defaultdictpermite inicializar um dicionário que atribui um valor padrão a chaves inexistentes. Fornecendo o argumentoint, garantimos que qualquer chave inexistente receba automaticamente o valor padrão0. Isso é ideal para armazenar as contagens de palavras neste exercício.itertools.chain.from_iterable()permite iterar por um conjunto de sequências como se fosse uma sequência contínua. Com essa função, podemos iterar facilmente pelo nosso objetocorpus(que é uma lista de listas).
O quinto documento de corpus está armazenado na variável doc, que foi ordenada em ordem decrescente.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____