Criar dicionário e corpus
Para executar um modelo de tópicos LDA, primeiro você precisa definir o seu dicionário e o corpus, pois eles serão usados no modelo. Você vai continuar trabalhando com os dados de texto limpos que preparou nos exercícios anteriores. Isso significa que text_clean já está disponível para você continuar, e você vai usá-lo para criar o dicionário e o corpus.
Este exercício vai levar um pouco mais de tempo para executar do que o normal.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Importe o pacote gensim e
corporado gensim separadamente. - Defina o dicionário executando a função correta sobre os seus dados limpos
text_clean. - Defina o corpus executando
doc2bowem cada trecho de texto emtext_clean. - Imprima seus resultados para ver como ficam
dictionaryecorpus.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the packages
import ____
from ____ import ____
# Define the dictionary
dictionary = ____.____(____)
# Define the corpus
corpus = [dictionary.____(text) for ___ in ____]
# Print corpus and dictionary
print(____)
print(____)