ComeçarComece de graça

Criar dicionário e corpus

Para executar um modelo de tópicos LDA, primeiro você precisa definir o seu dicionário e o corpus, pois eles serão usados no modelo. Você vai continuar trabalhando com os dados de texto limpos que preparou nos exercícios anteriores. Isso significa que text_clean já está disponível para você continuar, e você vai usá-lo para criar o dicionário e o corpus.

Este exercício vai levar um pouco mais de tempo para executar do que o normal.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

  • Importe o pacote gensim e corpora do gensim separadamente.
  • Defina o dicionário executando a função correta sobre os seus dados limpos text_clean.
  • Defina o corpus executando doc2bow em cada trecho de texto em text_clean.
  • Imprima seus resultados para ver como ficam dictionary e corpus.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the packages
import ____
from ____ import ____

# Define the dictionary
dictionary = ____.____(____)

# Define the corpus 
corpus = [dictionary.____(text) for ___ in ____]

# Print corpus and dictionary
print(____)
print(____)
Editar e executar o código