Créer le dictionnaire et le corpus
Pour exécuter un modèle de sujets LDA, vous devez d’abord définir votre dictionnaire et votre corpus, qui serviront d’entrées au modèle. Vous allez continuer à travailler sur les textes nettoyés préparés dans les exercices précédents. Autrement dit, text_clean est déjà disponible pour vous permettre de poursuivre, et vous l’utiliserez pour créer votre dictionnaire et votre corpus.
Cet exercice prendra un peu plus de temps à s’exécuter que d’habitude.
Cet exercice fait partie du cours
Détection de fraude en Python
Instructions
- Importez le package gensim et
corporade gensim séparément. - Définissez votre dictionnaire en appliquant la fonction appropriée à vos données nettoyées
text_clean. - Définissez le corpus en exécutant
doc2bowsur chaque élément de texte detext_clean. - Affichez vos résultats pour voir à quoi ressemblent
dictionaryetcorpus.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the packages
import ____
from ____ import ____
# Define the dictionary
dictionary = ____.____(____)
# Define the corpus
corpus = [dictionary.____(text) for ___ in ____]
# Print corpus and dictionary
print(____)
print(____)