CommencerCommencer gratuitement

Créer le dictionnaire et le corpus

Pour exécuter un modèle de sujets LDA, vous devez d’abord définir votre dictionnaire et votre corpus, qui serviront d’entrées au modèle. Vous allez continuer à travailler sur les textes nettoyés préparés dans les exercices précédents. Autrement dit, text_clean est déjà disponible pour vous permettre de poursuivre, et vous l’utiliserez pour créer votre dictionnaire et votre corpus.

Cet exercice prendra un peu plus de temps à s’exécuter que d’habitude.

Cet exercice fait partie du cours

Détection de fraude en Python

Afficher le cours

Instructions

  • Importez le package gensim et corpora de gensim séparément.
  • Définissez votre dictionnaire en appliquant la fonction appropriée à vos données nettoyées text_clean.
  • Définissez le corpus en exécutant doc2bow sur chaque élément de texte de text_clean.
  • Affichez vos résultats pour voir à quoi ressemblent dictionary et corpus.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the packages
import ____
from ____ import ____

# Define the dictionary
dictionary = ____.____(____)

# Define the corpus 
corpus = [dictionary.____(text) for ___ in ____]

# Print corpus and dictionary
print(____)
print(____)
Modifier et exécuter le code