ComeçarComece de graça

Criando e consultando um corpus com gensim

É hora de aplicar os métodos que você viu no vídeo anterior para criar seu primeiro dicionário e corpus do gensim!

Você usará essas estruturas de dados para investigar tendências de palavras e possíveis tópicos interessantes no seu conjunto de documentos. Para começar, importamos alguns artigos bagunçados da Wikipedia, que foram pré-processados colocando todas as palavras em minúsculas, tokenizando e removendo stop words e pontuação. Eles foram armazenados em uma lista de tokens de documentos chamada articles. Você precisará fazer um pré-processamento leve e então gerar o dicionário e o corpus do gensim.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Instruções do exercício

  • Importe Dictionary de gensim.corpora.dictionary.
  • Inicialize um Dictionary do gensim com os tokens em articles.
  • Obtenha o id de "computer" a partir de dictionary. Para isso, use o método .token2id, que retorna ids a partir do texto, e depois encadeie .get(), que retorna tokens a partir dos ids. Passe "computer" como argumento para .get().
  • Use uma list comprehension na qual você itera sobre articles para criar um MmCorpus do gensim a partir de dictionary.
    • Na expressão de saída, use o método .doc2bow() em dictionary com article como argumento.
  • Imprima os primeiros 10 ids de palavras com suas contagens de frequência do quinto documento. Isso já foi feito para você, então clique em 'Enviar Resposta' para ver os resultados!

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import Dictionary
____

# Create a Dictionary from the articles: dictionary
dictionary = ____(____)

# Select the id for "computer": computer_id
computer_id = ____.____.get("____")

# Use computer_id with the dictionary to print the word
print(dictionary.get(computer_id))

# Create a MmCorpus: corpus
corpus = [____.____(____) for article in articles]

# Print the first 10 word ids with their frequency counts from the fifth document
print(corpus[4][:10])
Editar e executar o código