Crea dizionario e corpus
Per eseguire un modello LDA di topic modeling, devi prima definire il dizionario e il corpus, che verranno passati al modello. Continuerai a lavorare sui testi puliti che hai preparato negli esercizi precedenti. Questo significa che text_clean è già disponibile e lo userai per creare il dizionario e il corpus.
Questo esercizio richiederà un po' più tempo del solito per l'esecuzione.
Questo esercizio fa parte del corso
Rilevamento delle frodi in Python
Istruzioni dell'esercizio
- Importa il pacchetto gensim e, separatamente,
corporada gensim. - Definisci il dizionario eseguendo la funzione corretta sui dati puliti
text_clean. - Definisci il corpus eseguendo
doc2bowsu ogni testo intext_clean. - Stampa i risultati per vedere com'è fatto
dictionaryecorpus.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the packages
import ____
from ____ import ____
# Define the dictionary
dictionary = ____.____(____)
# Define the corpus
corpus = [dictionary.____(text) for ___ in ____]
# Print corpus and dictionary
print(____)
print(____)