Criando e consultando um corpus com o gensim
É hora de aplicar os métodos que você aprendeu no vídeo anterior para criar seu primeiro dicionário e corpus gensim
!
Você usará essas estruturas de dados para investigar tendências de palavras e possíveis tópicos interessantes em seu conjunto de documentos. Para começar, importamos alguns artigos bagunçados adicionais da Wikipédia, que foram pré-processados com o uso de letras minúsculas em todas as palavras, tokenização e remoção de palavras de parada e pontuação. Em seguida, eles foram armazenados em uma lista de tokens de documentos chamada articles
. Você precisará fazer um pré-processamento leve e, em seguida, gerar o dicionário e o corpus gensim
.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Instruções de exercício
Importar
Dictionary
degensim.corpora.dictionary
.Inicialize um
gensim
Dictionary
com os tokens emarticles
.Obtenha o ID para
"computer"
emdictionary
. Para fazer isso, use o método.token2id
que retorna ids do texto e, em seguida, encadeie.get()
que retorna tokens de ids. Passe o endereço"computer"
como um argumento para.get()
.Use uma compreensão de lista na qual você itera sobre
articles
para criar umgensim
MmCorpus
a partir dedictionary
.- Na expressão de saída, use o método
.doc2bow()
emdictionary
comarticle
como argumento.
- Na expressão de saída, use o método
Imprima os 10 primeiros IDs de palavras com suas contagens de frequência do quinto documento. Isso foi feito para você, então clique em "Enviar resposta" para ver os resultados!
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import Dictionary
____
# Create a Dictionary from the articles: dictionary
dictionary = ____(____)
# Select the id for "computer": computer_id
computer_id = ____.____.get("____")
# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))
# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]
# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])