ComeçarComece gratuitamente

Criando e consultando um corpus com o gensim

É hora de aplicar os métodos que você aprendeu no vídeo anterior para criar seu primeiro dicionário e corpus gensim!

Você usará essas estruturas de dados para investigar tendências de palavras e possíveis tópicos interessantes em seu conjunto de documentos. Para começar, importamos alguns artigos bagunçados adicionais da Wikipédia, que foram pré-processados com o uso de letras minúsculas em todas as palavras, tokenização e remoção de palavras de parada e pontuação. Em seguida, eles foram armazenados em uma lista de tokens de documentos chamada articles. Você precisará fazer um pré-processamento leve e, em seguida, gerar o dicionário e o corpus gensim.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver Curso

Instruções de exercício

  • Importar Dictionary de gensim.corpora.dictionary.

  • Inicialize um gensim Dictionary com os tokens em articles.

  • Obtenha o ID para "computer" em dictionary. Para fazer isso, use o método .token2id que retorna ids do texto e, em seguida, encadeie .get() que retorna tokens de ids. Passe o endereço "computer" como um argumento para .get().

  • Use uma compreensão de lista na qual você itera sobre articles para criar um gensim MmCorpus a partir de dictionary.

    • Na expressão de saída, use o método .doc2bow() em dictionary com article como argumento.
  • Imprima os 10 primeiros IDs de palavras com suas contagens de frequência do quinto documento. Isso foi feito para você, então clique em "Enviar resposta" para ver os resultados!

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import Dictionary
____

# Create a Dictionary from the articles: dictionary
dictionary = ____(____)

# Select the id for "computer": computer_id
computer_id = ____.____.get("____")

# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))

# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]

# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])
Editar e executar código