Gensim bag-of-words

Agora, você vai usar seu novo corpus e dicionário do gensim para ver os termos mais comuns por documento e em todos os documentos. Você pode usar o dicionário para consultar os termos. Arrisque quais são os tópicos e fique à vontade para explorar mais documentos no IPython Shell!

Você tem acesso aos objetos dictionary e corpus criados no exercício anterior, além de defaultdict do Python e itertools para ajudar a criar estruturas de dados intermediárias para análise.

defaultdict permite inicializar um dicionário que atribui um valor padrão a chaves inexistentes. Fornecendo o argumento int, garantimos que qualquer chave inexistente receba automaticamente o valor padrão 0. Isso é ideal para armazenar as contagens de palavras neste exercício.
itertools.chain.from_iterable() permite iterar por um conjunto de sequências como se fosse uma sequência contínua. Com essa função, podemos iterar facilmente pelo nosso objeto corpus (que é uma lista de listas).

O quinto documento de corpus está armazenado na variável doc, que foi ordenada em ordem decrescente.

Este exercicio faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Save the fifth document: doc
doc = corpus[4]

# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)

# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
    print(dictionary.____(____), ____)
    
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
    ____[____] += ____

Editar e Executar Código