Saco de palavras Gensim
Agora, você usará o novo corpus e dicionário gensim
para ver os termos mais comuns por documento e em todos os documentos. Você pode usar seu dicionário para procurar os termos. Tente adivinhar quais são os tópicos e sinta-se à vontade para explorar mais documentos no IPython Shell!
Você tem acesso aos objetos dictionary
e corpus
que criou no exercício anterior, bem como aos objetos Python defaultdict
e itertools
para ajudar na criação de estruturas de dados intermediárias para análise.
defaultdict
nos permite inicializar um dicionário que atribuirá um valor padrão a chaves inexistentes. Ao fornecer o argumentoint
, você pode garantir que todas as chaves inexistentes recebam automaticamente um valor padrão de0
. Isso o torna ideal para armazenar as contagens de palavras neste exercício.itertools.chain.from_iterable()
nos permite iterar em um conjunto de sequências como se fossem uma sequência contínua. Usando essa função, podemos iterar facilmente pelo nosso objetocorpus
(que é uma lista de listas).
O quinto documento de corpus
é armazenado na variável doc
, que foi classificada em ordem decrescente.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Save the fifth document: doc
doc = corpus[4]
# Sort the doc for frequency: bow_doc
bow_doc = sorted(doc, key=lambda w: w[1], reverse=True)
# Print the top 5 words of the document alongside the count
for word_id, word_count in bow_doc[:5]:
print(dictionary.____(____), ____)
# Create the defaultdict: total_word_count
total_word_count = ____
for word_id, word_count in itertools.chain.from_iterable(corpus):
____[____] += ____